URI | http://purl.tuc.gr/dl/dias/017C122C-98E5-49FD-954A-200AEAB2B6F4 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.104033 | - |
Γλώσσα | en | - |
Μέγεθος | 80 pages | en |
Τίτλος | A toolkit for scalable preprocessing and neural learning with Tensorflow and Dask | en |
Τίτλος | Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask | el |
Δημιουργός | Kratimenos Michail | en |
Δημιουργός | Κρατημενος Μιχαηλ | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Giatrakos Nikolaos | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Γιατρακος Νικολαος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Deligiannakis Antonios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Δεληγιαννακης Αντωνιος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Chalkiadakis Georgios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Χαλκιαδακης Γεωργιος | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | In modern data-intensive applications, particularly those involving neural learning, the volume and velocity of incoming data pose significant challenges for real-time preprocessing and analysis. This thesis addresses the absence of Python-based solutions for stream summarization by introducing a parallel, scalable toolkit for data synopses, implemented using Apache Dask. Unlike existing synopses data engines, our approach is seamlessly integrated into Python ecosystems and is directly compatible with TensorFlow-based learning pipelines. We present an aggregation of probabilistic data structures, such as Bloom Filters, HyperLogLog and PrioritySampler, which maintain summaries of large data streams using sublinear memory. These structures support essential operations like add, merge, and estimate and are specifically implemented to allow efficient parallel computation via Dask. The toolkit is further embedded into SuBiTO, a Bayesian optimization framework for scalable learning, in order to optimize its performance. This optimization is shown in the experimental evaluations, where our engine significantly improves the runtime of data preprocessing tasks in distributed environments, by accelerating the synopses maintenance. Then, only concise data summaries are fed into neural learning pipelines to achieve appropriate balance between training accuracy and training speed. This work provides both a
foundational toolkit and an integrated path between the neural learning pipeline and the preprocessing summarization step, offering a strong basis for future work in scalable, Python-based data summarization systems. | en |
Περίληψη | Στις σύγχρονες εφαρμογές που βασίζονται σε εντατική χρήση δεδομένων, ιδιαίτερα σε εκείνες που περιλαμβάνουν νευρωνική μάθηση, ο όγκος και η ταχύτητα των εισερχόμενων δεδομένων θέτουν σημαντικές προκλήσεις για την προεπεξεργασία και ανάλυση σε πραγματικό χρόνο. Αυτή η διατριβή αντιμετωπίζει την απουσία λύσεων που βασίζονται σε Python για τη σύνοψη ροών δεδομένων, εισάγοντας μια παράλληλη, κλιμακωτή εργαλειοθήκη για συνόψεις δεδομένων, που υλοποιείται χρησιμοποιώντας το Apache Dask. Σε αντίθεση με τις υπάρχουσες μηχανές δεδομένων συνόψεων, η προσέγγισή μας ενσωματώνεται άψογα στα οικοσυστήματα Python και είναι άμεσα συμβατή με αγωγούς μάθησης που βασίζονται στο TensorFlow. Παρουσιάζουμε μια συλλογή πιθανοκρατικών δομών δεδομένων, όπως τα Bloom Filters, το HyperLogLog και το PrioritySampler, οι οποίες διατηρούν συνόψεις μεγάλων ροών δεδομένων χρησιμοποιώντας υπογραμμική μνήμη. Αυτές οι δομές υποστηρίζουν βασικές λειτουργίες όπως η add, η merge και η estimate και υλοποιούνται ειδικά για να επιτρέπουν αποτελεσματικό παράλληλο υπολογισμό μέσω του Dask. Η εργαλειοθήκη είναι περαιτέρω ενσωματωμένη στο SuBiTO, ένα Bayesian πλαίσιο βελτιστοποίησης για κλιμακωτή μάθηση, προκειμένου να βελτιστοποιηθεί η απόδοσή του. Αυτή η βελτιστοποίηση φαίνεται στις πειραματικές αξιολογήσεις, όπου η μηχανή μας βελτιώνει σημαντικά τον χρόνο εκτέλεσης των εργασιών προεπεξεργασίας δεδομένων σε κατανεμημένα περιβάλλοντα, επιταχύνοντας τη συντήρηση των συνόψεων. Στη συνέχεια, μόνο συνοπτικές περιλήψεις δεδομένων τροφοδοτούνται σε νευρωνικούς αγωγούς μάθησης για να επιτευχθεί η κατάλληλη ισορροπία μεταξύ της ακρίβειας εκπαίδευσης και της ταχύτητας εκπαίδευσης. Αυτή η εργασία παρέχει τόσο μια βασική εργαλειοθήκη όσο και μια ολοκληρωμένη διαδρομή μεταξύ του νευρωνικού αγωγού μάθησης και του βήματος προεπεξεργασίας των συνόψεων, προσφέροντας μια ισχυρή βάση για μελλοντική εργασία σε κλιμακώσιμα συστήματα σύνοψης δεδομένων που βασίζονται σε Python. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2025-07-18 | - |
Ημερομηνία Δημοσίευσης | 2025 | - |
Θεματική Κατηγορία | Scalable Preprocessing | en |
Θεματική Κατηγορία | Neural Learning | en |
Θεματική Κατηγορία | Tensorflow and Dask | en |
Βιβλιογραφική Αναφορά | Michail Kratimenos, "A toolkit for scalable preprocessing and neural learning with Tensorflow and Dask", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025 | en |
Βιβλιογραφική Αναφορά | Μιχαήλ Κρατημένος, "Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025 | el |