Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask

Kratimenos Michail

URI	http://purl.tuc.gr/dl/dias/017C122C-98E5-49FD-954A-200AEAB2B6F4	-
Αναγνωριστικό	https://doi.org/10.26233/heallink.tuc.104033	-
Γλώσσα	en	-
Μέγεθος	80 pages	en
Τίτλος	A toolkit for scalable preprocessing and neural learning with Tensorflow and Dask	en
Τίτλος	Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask	el
Δημιουργός	Kratimenos Michail	en
Δημιουργός	Κρατημενος Μιχαηλ	el
Συντελεστής [Επιβλέπων Καθηγητής]	Giatrakos Nikolaos	en
Συντελεστής [Επιβλέπων Καθηγητής]	Γιατρακος Νικολαος	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Deligiannakis Antonios	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Δεληγιαννακης Αντωνιος	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Chalkiadakis Georgios	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Χαλκιαδακης Γεωργιος	el
Εκδότης	Πολυτεχνείο Κρήτης	el
Εκδότης	Technical University of Crete	en
Ακαδημαϊκή Μονάδα	Technical University of Crete::School of Electrical and Computer Engineering	en
Ακαδημαϊκή Μονάδα	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Περίληψη	In modern data-intensive applications, particularly those involving neural learning, the volume and velocity of incoming data pose significant challenges for real-time preprocessing and analysis. This thesis addresses the absence of Python-based solutions for stream summarization by introducing a parallel, scalable toolkit for data synopses, implemented using Apache Dask. Unlike existing synopses data engines, our approach is seamlessly integrated into Python ecosystems and is directly compatible with TensorFlow-based learning pipelines. We present an aggregation of probabilistic data structures, such as Bloom Filters, HyperLogLog and PrioritySampler, which maintain summaries of large data streams using sublinear memory. These structures support essential operations like add, merge, and estimate and are specifically implemented to allow efficient parallel computation via Dask. The toolkit is further embedded into SuBiTO, a Bayesian optimization framework for scalable learning, in order to optimize its performance. This optimization is shown in the experimental evaluations, where our engine significantly improves the runtime of data preprocessing tasks in distributed environments, by accelerating the synopses maintenance. Then, only concise data summaries are fed into neural learning pipelines to achieve appropriate balance between training accuracy and training speed. This work provides both a foundational toolkit and an integrated path between the neural learning pipeline and the preprocessing summarization step, offering a strong basis for future work in scalable, Python-based data summarization systems.	en
Περίληψη	Στις σύγχρονες εφαρμογές που βασίζονται σε εντατική χρήση δεδομένων, ιδιαίτερα σε εκείνες που περιλαμβάνουν νευρωνική μάθηση, ο όγκος και η ταχύτητα των εισερχόμενων δεδομένων θέτουν σημαντικές προκλήσεις για την προεπεξεργασία και ανάλυση σε πραγματικό χρόνο. Αυτή η διατριβή αντιμετωπίζει την απουσία λύσεων που βασίζονται σε Python για τη σύνοψη ροών δεδομένων, εισάγοντας μια παράλληλη, κλιμακωτή εργαλειοθήκη για συνόψεις δεδομένων, που υλοποιείται χρησιμοποιώντας το Apache Dask. Σε αντίθεση με τις υπάρχουσες μηχανές δεδομένων συνόψεων, η προσέγγισή μας ενσωματώνεται άψογα στα οικοσυστήματα Python και είναι άμεσα συμβατή με αγωγούς μάθησης που βασίζονται στο TensorFlow. Παρουσιάζουμε μια συλλογή πιθανοκρατικών δομών δεδομένων, όπως τα Bloom Filters, το HyperLogLog και το PrioritySampler, οι οποίες διατηρούν συνόψεις μεγάλων ροών δεδομένων χρησιμοποιώντας υπογραμμική μνήμη. Αυτές οι δομές υποστηρίζουν βασικές λειτουργίες όπως η add, η merge και η estimate και υλοποιούνται ειδικά για να επιτρέπουν αποτελεσματικό παράλληλο υπολογισμό μέσω του Dask. Η εργαλειοθήκη είναι περαιτέρω ενσωματωμένη στο SuBiTO, ένα Bayesian πλαίσιο βελτιστοποίησης για κλιμακωτή μάθηση, προκειμένου να βελτιστοποιηθεί η απόδοσή του. Αυτή η βελτιστοποίηση φαίνεται στις πειραματικές αξιολογήσεις, όπου η μηχανή μας βελτιώνει σημαντικά τον χρόνο εκτέλεσης των εργασιών προεπεξεργασίας δεδομένων σε κατανεμημένα περιβάλλοντα, επιταχύνοντας τη συντήρηση των συνόψεων. Στη συνέχεια, μόνο συνοπτικές περιλήψεις δεδομένων τροφοδοτούνται σε νευρωνικούς αγωγούς μάθησης για να επιτευχθεί η κατάλληλη ισορροπία μεταξύ της ακρίβειας εκπαίδευσης και της ταχύτητας εκπαίδευσης. Αυτή η εργασία παρέχει τόσο μια βασική εργαλειοθήκη όσο και μια ολοκληρωμένη διαδρομή μεταξύ του νευρωνικού αγωγού μάθησης και του βήματος προεπεξεργασίας των συνόψεων, προσφέροντας μια ισχυρή βάση για μελλοντική εργασία σε κλιμακώσιμα συστήματα σύνοψης δεδομένων που βασίζονται σε Python.	el
Τύπος	Διπλωματική Εργασία	el
Τύπος	Diploma Work	en
Άδεια Χρήσης	http://creativecommons.org/licenses/by/4.0/	en
Ημερομηνία	2025-07-18	-
Ημερομηνία Δημοσίευσης	2025	-
Θεματική Κατηγορία	Scalable Preprocessing	en
Θεματική Κατηγορία	Neural Learning	en
Θεματική Κατηγορία	Tensorflow and Dask	en
Βιβλιογραφική Αναφορά	Michail Kratimenos, "A toolkit for scalable preprocessing and neural learning with Tensorflow and Dask", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025	en
Βιβλιογραφική Αναφορά	Μιχαήλ Κρατημένος, "Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025	el

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask

Kratimenos Michail

Διαθέσιμα αρχεία

Υπηρεσίες

Εξαγωγή

Κοινοποίηση

Στατιστικά

Μεταδεδομένων & Περιεχομένου σε METS:

Μεταδεδομένων σε Μορφότυπο: