Το έργο με τίτλο Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask από τον/τους δημιουργό/ούς Kratimenos Michail διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Μιχαήλ Κρατημένος, "Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025
https://doi.org/10.26233/heallink.tuc.104033
Στις σύγχρονες εφαρμογές που βασίζονται σε εντατική χρήση δεδομένων, ιδιαίτερα σε εκείνες που περιλαμβάνουν νευρωνική μάθηση, ο όγκος και η ταχύτητα των εισερχόμενων δεδομένων θέτουν σημαντικές προκλήσεις για την προεπεξεργασία και ανάλυση σε πραγματικό χρόνο. Αυτή η διατριβή αντιμετωπίζει την απουσία λύσεων που βασίζονται σε Python για τη σύνοψη ροών δεδομένων, εισάγοντας μια παράλληλη, κλιμακωτή εργαλειοθήκη για συνόψεις δεδομένων, που υλοποιείται χρησιμοποιώντας το Apache Dask. Σε αντίθεση με τις υπάρχουσες μηχανές δεδομένων συνόψεων, η προσέγγισή μας ενσωματώνεται άψογα στα οικοσυστήματα Python και είναι άμεσα συμβατή με αγωγούς μάθησης που βασίζονται στο TensorFlow. Παρουσιάζουμε μια συλλογή πιθανοκρατικών δομών δεδομένων, όπως τα Bloom Filters, το HyperLogLog και το PrioritySampler, οι οποίες διατηρούν συνόψεις μεγάλων ροών δεδομένων χρησιμοποιώντας υπογραμμική μνήμη. Αυτές οι δομές υποστηρίζουν βασικές λειτουργίες όπως η add, η merge και η estimate και υλοποιούνται ειδικά για να επιτρέπουν αποτελεσματικό παράλληλο υπολογισμό μέσω του Dask. Η εργαλειοθήκη είναι περαιτέρω ενσωματωμένη στο SuBiTO, ένα Bayesian πλαίσιο βελτιστοποίησης για κλιμακωτή μάθηση, προκειμένου να βελτιστοποιηθεί η απόδοσή του. Αυτή η βελτιστοποίηση φαίνεται στις πειραματικές αξιολογήσεις, όπου η μηχανή μας βελτιώνει σημαντικά τον χρόνο εκτέλεσης των εργασιών προεπεξεργασίας δεδομένων σε κατανεμημένα περιβάλλοντα, επιταχύνοντας τη συντήρηση των συνόψεων. Στη συνέχεια, μόνο συνοπτικές περιλήψεις δεδομένων τροφοδοτούνται σε νευρωνικούς αγωγούς μάθησης για να επιτευχθεί η κατάλληλη ισορροπία μεταξύ της ακρίβειας εκπαίδευσης και της ταχύτητας εκπαίδευσης. Αυτή η εργασία παρέχει τόσο μια βασική εργαλειοθήκη όσο και μια ολοκληρωμένη διαδρομή μεταξύ του νευρωνικού αγωγού μάθησης και του βήματος προεπεξεργασίας των συνόψεων, προσφέροντας μια ισχυρή βάση για μελλοντική εργασία σε κλιμακώσιμα συστήματα σύνοψης δεδομένων που βασίζονται σε Python.