Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

A toolkit for scalable preprocessing and neural learning with Tensorflow and Dask

Kratimenos Michail

Simple record


URIhttp://purl.tuc.gr/dl/dias/017C122C-98E5-49FD-954A-200AEAB2B6F4-
Identifierhttps://doi.org/10.26233/heallink.tuc.104033-
Languageen-
Extent80 pagesen
TitleA toolkit for scalable preprocessing and neural learning with Tensorflow and Dasken
TitleΜια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Daskel
CreatorKratimenos Michailen
CreatorΚρατημενος Μιχαηλel
Contributor [Thesis Supervisor]Giatrakos Nikolaosen
Contributor [Thesis Supervisor]Γιατρακος Νικολαοςel
Contributor [Committee Member]Deligiannakis Antoniosen
Contributor [Committee Member]Δεληγιαννακης Αντωνιοςel
Contributor [Committee Member]Chalkiadakis Georgiosen
Contributor [Committee Member]Χαλκιαδακης Γεωργιοςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
Content SummaryIn modern data-intensive applications, particularly those involving neural learning, the volume and velocity of incoming data pose significant challenges for real-time preprocessing and analysis. This thesis addresses the absence of Python-based solutions for stream summarization by introducing a parallel, scalable toolkit for data synopses, implemented using Apache Dask. Unlike existing synopses data engines, our approach is seamlessly integrated into Python ecosystems and is directly compatible with TensorFlow-based learning pipelines. We present an aggregation of probabilistic data structures, such as Bloom Filters, HyperLogLog and PrioritySampler, which maintain summaries of large data streams using sublinear memory. These structures support essential operations like add, merge, and estimate and are specifically implemented to allow efficient parallel computation via Dask. The toolkit is further embedded into SuBiTO, a Bayesian optimization framework for scalable learning, in order to optimize its performance. This optimization is shown in the experimental evaluations, where our engine significantly improves the runtime of data preprocessing tasks in distributed environments, by accelerating the synopses maintenance. Then, only concise data summaries are fed into neural learning pipelines to achieve appropriate balance between training accuracy and training speed. This work provides both a foundational toolkit and an integrated path between the neural learning pipeline and the preprocessing summarization step, offering a strong basis for future work in scalable, Python-based data summarization systems.en
Content SummaryΣτις σύγχρονες εφαρμογές που βασίζονται σε εντατική χρήση δεδομένων, ιδιαίτερα σε εκείνες που περιλαμβάνουν νευρωνική μάθηση, ο όγκος και η ταχύτητα των εισερχόμενων δεδομένων θέτουν σημαντικές προκλήσεις για την προεπεξεργασία και ανάλυση σε πραγματικό χρόνο. Αυτή η διατριβή αντιμετωπίζει την απουσία λύσεων που βασίζονται σε Python για τη σύνοψη ροών δεδομένων, εισάγοντας μια παράλληλη, κλιμακωτή εργαλειοθήκη για συνόψεις δεδομένων, που υλοποιείται χρησιμοποιώντας το Apache Dask. Σε αντίθεση με τις υπάρχουσες μηχανές δεδομένων συνόψεων, η προσέγγισή μας ενσωματώνεται άψογα στα οικοσυστήματα Python και είναι άμεσα συμβατή με αγωγούς μάθησης που βασίζονται στο TensorFlow. Παρουσιάζουμε μια συλλογή πιθανοκρατικών δομών δεδομένων, όπως τα Bloom Filters, το HyperLogLog και το PrioritySampler, οι οποίες διατηρούν συνόψεις μεγάλων ροών δεδομένων χρησιμοποιώντας υπογραμμική μνήμη. Αυτές οι δομές υποστηρίζουν βασικές λειτουργίες όπως η add, η merge και η estimate και υλοποιούνται ειδικά για να επιτρέπουν αποτελεσματικό παράλληλο υπολογισμό μέσω του Dask. Η εργαλειοθήκη είναι περαιτέρω ενσωματωμένη στο SuBiTO, ένα Bayesian πλαίσιο βελτιστοποίησης για κλιμακωτή μάθηση, προκειμένου να βελτιστοποιηθεί η απόδοσή του. Αυτή η βελτιστοποίηση φαίνεται στις πειραματικές αξιολογήσεις, όπου η μηχανή μας βελτιώνει σημαντικά τον χρόνο εκτέλεσης των εργασιών προεπεξεργασίας δεδομένων σε κατανεμημένα περιβάλλοντα, επιταχύνοντας τη συντήρηση των συνόψεων. Στη συνέχεια, μόνο συνοπτικές περιλήψεις δεδομένων τροφοδοτούνται σε νευρωνικούς αγωγούς μάθησης για να επιτευχθεί η κατάλληλη ισορροπία μεταξύ της ακρίβειας εκπαίδευσης και της ταχύτητας εκπαίδευσης. Αυτή η εργασία παρέχει τόσο μια βασική εργαλειοθήκη όσο και μια ολοκληρωμένη διαδρομή μεταξύ του νευρωνικού αγωγού μάθησης και του βήματος προεπεξεργασίας των συνόψεων, προσφέροντας μια ισχυρή βάση για μελλοντική εργασία σε κλιμακώσιμα συστήματα σύνοψης δεδομένων που βασίζονται σε Python.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2025-07-18-
Date of Publication2025-
SubjectScalable Preprocessingen
SubjectNeural Learningen
SubjectTensorflow and Dasken
Bibliographic CitationMichail Kratimenos, "A toolkit for scalable preprocessing and neural learning with Tensorflow and Dask", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025en
Bibliographic CitationΜιχαήλ Κρατημένος, "Μια εργαλειοθήκη κλιμακώσιμης προ-επεξεργασίας και νευρωνικής εκπαίδευσης με Tensorflow και Dask", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025el

Available Files

Services

Statistics