| URI | http://purl.tuc.gr/dl/dias/14A047C4-DAEB-4F96-B452-47BA5D21B9AC | - | 
| Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.105137 | - | 
| Γλώσσα | en | - | 
| Μέγεθος | 93 pages | en | 
| Τίτλος | Distributed monitoring of streaming data over neural training pipelines | en | 
| Τίτλος | Κατανεμημένη παρακολούθηση ροών δεδομένων επί διαδικασιών εκπαίδευσης νευρωνικών δικτύων | el | 
| Δημιουργός | Klioumis Georgios | en | 
| Δημιουργός | Κλιουμης Γεωργιος | el | 
| Συντελεστής [Επιβλέπων Καθηγητής] | Giatrakos Nikolaos | en | 
| Συντελεστής [Επιβλέπων Καθηγητής] | Γιατρακος Νικολαος | el | 
| Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Garofalakis Minos | en | 
| Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Γαροφαλακης Μινως | el | 
| Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Deligiannakis Antonios | en | 
| Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Δεληγιαννακης Αντωνιος | el | 
| Εκδότης | Πολυτεχνείο Κρήτης | el | 
| Εκδότης | Technical University of Crete | en | 
| Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en | 
| Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el | 
| Περιγραφή | Μεταπτυχιακή διατριβή που υποβλήθηκε στην σχολή ΗΜΜΥ του Πολυτεχνείου Κρήτης για την πλήρωση προϋποθέσεων λήψης του Διπλώματος Μεταπτυχιακών Σπουδών | el | 
| Περίληψη | Our goal is to propose a big data workflow model by introducing 3 novel contributions in the field of distributed data synopses, stream processing and learning. We start by introducing the Reversible Random Hyperplane Projection (RRHP) Locality Sensitive Hashing scheme, a novel, lightweight, reversible data synopsis that can be used to compress data streams in resource constrained environments, such as Wireless Sensor Networks (WSNs). Therefore, RRHP is an efficient way of gathering and transmitting data from the edge. We showcase real-world experiments proving that RRHP can achieve similar or better performance metrics compared to other lightweight data synopses mechanisms, that can be deployed on a WSN setting. Moreover, we show that RRHP can prolong the life of sensors on the field by reducing their energy consumption by up to 10 times.
Next, we present EVENFLOW, a novel toolkit of synchronization protocols for data-parallel training of neural networks using the Parameter Server paradigm, that achieves both timely and accurate global model updates in streaming settings. Our experimental evaluation shows that EVENFLOW combines the virtues of both the vanilla (synchronous, asynchronous) protocols, offering the rapid training times of asynchronous, with mostly equal or even improved accuracy compared to synchronous. Therefore, EVENFLOW enables us to train on the data that arrive from the edge, in a distributed manner.
Finally, we present the Distribuito SuBiTO framework, a version of the original SuBiTO framework, that performs sampling, training and inference in a distributed manner, all while constantly optimising the neural learning strategy. Distribuito SuBiTO retains the original operation of SuBiTO that automatically and continuously learns as new data stream in and fine tunes each part of data processing and learning, adapting these parameters on-the-fly. We couple our contributions with extensive experimental evaluation, testing every re-engineered part of the Distribuito SuBiTO framework and proving the platform's efficacy in handling large volume streams in an efficient real-time character, all while retaining the original functionality of SuBiTO. Therefore, Distribuito SuBiTO, enables us to perform data analytics tasks on big data streams arriving from the edge, in a highly adaptable, real-time and distributed manner. | en | 
| Περίληψη | Στόχος μας είναι να προτείνουμε ένα μοντέλο ροής εργασιών μεγάλων δεδομένων, εισάγοντας 3 καινοτόμες συνεισφορές στον τομέα των κατανεμημένων συνόψεων δεδομένων, της επεξεργασίας ροών και της μάθησης. Ξεκινάμε εισάγοντας την μέθοδο Reversible Random Hyperplane Projection (RRHP), μία καινοτόμα, υπολογιστικά φθηνή, αναστρέψιμη σύνοψη δεδομένων που μπορεί να χρησιμοποιηθεί για τη συμπίεση ροών δεδομένων σε περιβάλλοντα με περιορισμένους πόρους, όπως τα Ασύρματα Δίκτυα Αισθητήρων (ΑΔΑ). Κατά συνέπεια, το RRHP αποτελεί έναν αποδοτικό τρόπο συλλογής και μετάδοσης δεδομένων από το άκρο του δικτύου. Παρουσιάζουμε πειράματα σε πραγματικά περιβάλλοντα που αποδεικνύουν ότι το RRHP μπορεί να επιτύχει παρόμοιες ή καλύτερες μετρικές απόδοσης, σε σύγκριση με άλλους μηχανισμούς αναστρέψιμης σύνοψης δεδομένων, οι οποίοι μπορούν να αναπτυχθούν σε περιβάλλοντα ΑΔΑ. Επιπλέον, δείχνουμε ότι το RRHP μπορεί να παρατείνει τη διάρκεια ζωής των αισθητήρων στο πεδίο μειώνοντας την κατανάλωση ενέργειας τους έως και 10 φορές.
Στη συνέχεια, παρουσιάζουμε το EVENFLOW, ένα καινοτόμο σύνολο πρωτοκόλλων συγχρονισμού για την παράλληλη ως προς τα δεδομένα εκπαίδευση νευρωνικών δικτύων σχεδιασμένο για περιβάλλον συστήματος Parameter Server, το οποίο επιτυγχάνει τόσο έγκαιρες όσο και ακριβείς ενημερώσεις του μοντέλου πρόβλεψης σε περιβάλλοντα ροών. Η πειραματική μας αξιολόγηση δείχνει ότι το EVENFLOW  συνδυάζει τις αρετές και των δύο βασικών (σύγχρονο, ασύγχρονο) πρωτοκόλλων, προσφέροντας τους γρήγορους χρόνους εκπαίδευσης του ασύγχρονου πρωτοκόλλου, με σχεδόν ίση ή ακόμη και βελτιωμένη ακρίβεια σε σύγκριση με το σύγχρονο πρωτόκολλο. Κατά συνέπεια, το EVENFLOW μας επιτρέπει την εκπαίδευση στα δεδομένα που προέρχονται από το άκρο του δικτύου, με κατανεμημένο τρόπο.
Τέλος, παρουσιάζουμε την κατανεμημένη πλατφόρμα Distribuito SuBiTO, μία έκδοση της αρχικής πλατφόρμας SuBiTO, η οποία εκτελεί δειγματοληψία, εκπαίδευση και πρόβλεψη με κατανεμημένο τρόπο, ενώ ταυτόχρονα βελτιστοποιεί συνεχώς τη στρατηγική νευρωνικής μάθησης. Η πλατφόρμα Distribuito SuBiTO διατηρεί την αρχική λειτουργία του SuBiTO, που μαθαίνει αυτόματα και συνεχώς, κατά τη διάρκεια εισροής νέων δεδομένων, βελτιστοποιώντας κάθε μέρος της επεξεργασίας και της μάθησης, προσαρμόζοντας τις παραμέτρους τους δυναμικά. Συνοδεύουμε τις συνεισφορές μας με εκτενή πειραματική αξιολόγηση, δοκιμάζοντας κάθε επανασχεδιασμένο μέρος της κατανεμημένης πλατφόρμας Distribuito SuBiTO και αποδεικνύοντας την αποτελεσματικότητά της στην επεξεργασία μεγάλου όγκου ροών, με αποδοτικό χαρακτήρα πραγματικού χρόνου, διατηρώντας παράλληλα τη λειτουργικότητα του αρχικού SuBiTO. Κατά συνέπεια, το Distribuito SuBiTO μας επιτρέπει να εκτελούμε αναλύσεις σε ροές μεγάλων δεδομένων που προέρχονται από το άκρο, με υψηλή προσαρμοστικότητα, σε πραγματικό χρόνο και με κατανεμημένο τρόπο. | el | 
| Τύπος | Μεταπτυχιακή Διατριβή | el | 
| Τύπος | Master Thesis | en | 
| Άδεια Χρήσης | http://creativecommons.org/licenses/by-nc/4.0/ | en | 
| Ημερομηνία | 2025-10-30 | - | 
| Ημερομηνία Δημοσίευσης | 2025 | - | 
| Θεματική Κατηγορία | Distributed System | en | 
| Θεματική Κατηγορία | Distributed Systems | el | 
| Θεματική Κατηγορία | Big Streaming Data | en | 
| Θεματική Κατηγορία | Streaming Data Processing | en | 
| Θεματική Κατηγορία | Streaming Data Analytics | en | 
| Θεματική Κατηγορία | Streaming Data | en | 
| Θεματική Κατηγορία | WSN | en | 
| Θεματική Κατηγορία | Wireless Sensor Network | en | 
| Θεματική Κατηγορία | Wireless Sensor Networks | en | 
| Θεματική Κατηγορία | Data Compression | en | 
| Θεματική Κατηγορία | Stream Compression | en | 
| Θεματική Κατηγορία | Edge Compression | en | 
| Θεματική Κατηγορία | Edge Computing | en | 
| Θεματική Κατηγορία | LSH | en | 
| Θεματική Κατηγορία | Locality Sensitive Hashing | en | 
| Θεματική Κατηγορία | RHP | en | 
| Θεματική Κατηγορία | Random Hyperplane Projection | en | 
| Θεματική Κατηγορία | Reversible Data Summaries | en | 
| Θεματική Κατηγορία | Data Summaries | en | 
| Θεματική Κατηγορία | Streams | en | 
| Θεματική Κατηγορία | Big Data Analytics | en | 
| Θεματική Κατηγορία | Big Data | en | 
| Θεματική Κατηγορία | Machine Learning | en | 
| Θεματική Κατηγορία | Distributed Machine Learning | en | 
| Θεματική Κατηγορία | Training optimization | en | 
| Θεματική Κατηγορία | Training Optimisation | en | 
| Θεματική Κατηγορία | Neural Network Training | en | 
| Θεματική Κατηγορία | Parameter Server | en | 
| Θεματική Κατηγορία | Real-time | en | 
| Θεματική Κατηγορία | Online learning | en | 
| Θεματική Κατηγορία | Scalable Computing | en | 
| Θεματική Κατηγορία | Ray Framework | en | 
| Θεματική Κατηγορία | Ray | en | 
| Θεματική Κατηγορία | Dask Framework | en | 
| Θεματική Κατηγορία | Dask | en | 
| Θεματική Κατηγορία | Data Mining | en | 
| Θεματική Κατηγορία | Sensor Data Mining | en | 
| Βιβλιογραφική Αναφορά | Georgios Klioumis, "Distributed monitoring of streaming data over neural training pipelines", Master Thesis, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025 | en | 
| Βιβλιογραφική Αναφορά | Γεώργιος Κλιούμης, "Κατανεμημένη παρακολούθηση ροών δεδομένων επί διαδικασιών εκπαίδευσης νευρωνικών δικτύων", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025 | el |