URI | http://purl.tuc.gr/dl/dias/3C8837A2-7745-4025-B874-D756A30E6261 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.86412 | - |
Γλώσσα | en | - |
Μέγεθος | 47 pages | el |
Μέγεθος | 1.9 megabytes | en |
Τίτλος | A functional geometric approach to distributed support vector machine (SVM) classification | en |
Τίτλος | Γεωμετρική προσέγγιση κατανεμημένης κατηγοριοποίησης με χρήση μηχανών υποστηρικτικών διανυσμάτων | el |
Δημιουργός | Kampioti Sofia | en |
Δημιουργός | Καμπιωτη Σοφια | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Samoladas Vasilis | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Σαμολαδας Βασιλης | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Deligiannakis Antonios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Δεληγιαννακης Αντωνιος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Garofalakis Minos | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Γαροφαλακης Μινως | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | We live in the information age, and with every passing year, our environment becomes more and more heavily defined by data, leading to a major need for better decision-making models. The breakthroughs in data analytics have already seen through machine learning. Support vector machines (SVM) are a popular, adaptive, multipurpose machine learning algorithm with the ability to capture complex relationships between data points without having to perform difficult transformations. We study the problem of prohibitive communication costs that a centralized architecture implies if most of the data is generated or received on different remote machines. The past few years notable efforts have been made to achieve parallelism on the training procedure of machine learning models. We propose the use of Functional Geometric Monitoring (FGM) communication protocol which is used to monitor high-volume, rapid distributed streams to decrease the communication cost on a distributed SVM architecture. Our main goal is both to achieve centralized-like prediction loss and to minimize communication costs. In our proposal, the sklearn library, for centralized machine learning, is used in a distributed manner, with the use of Dask library, resulting in a notable speedup for the training procedure. | en |
Περίληψη | Ζούμε σε ένα περιβάλλον όπου οι πληροφορίες ρέουν ακατάπαυστα και με το πέρασμα των χρόνων το περιβάλλον μας διέπεται ολοένα και περισσότερο από δεδομένα, δημιουργώντας έτσι την ανάγκη για την κατασκευή καλύτερων μοντέλων για την διαχείριση τους. Η επανάσταση στον τομέα της ανάλυσης δεδομένων έχει ήδη ξεκινήσει με την χρήση machine learning αλγορίθμων. Οι Support Vector Machine (SVM) αλγόριθμοι είναι μια κατηγορία δημοφιλών machine learning αλγορίθμων, με μεγάλη προσαρμοστικότητα και πολλαπλές περιπτώσεις χρήσης καθώς έχουν την ικανότητα να εντοπίζουν πολύπλοκες συσχετίσεις μεταξύ δεδομένων χωρίς υψηλή υπολογιστική πολυπλοκότητα. Σε αυτήν την εργασία μελετήθηκε το πρόβλημα του υψηλού κόστους επικοινωνίας που παρατηρείται στην περίπτωση που τα δεδομένα παράγονται σε απομακρυσμένες πηγές και συλλέγονται σε μια μόνο δομή για την επεξεργασία τους. Τα τελευταία χρόνια έχουν γίνει αξιόλογες προσπάθειες ώστε να επιτευχθεί παραλληλισμός στην διαδικασία εκπαίδευσης machine learning αλγορίθμων ώστε να αποφευχθεί η συγκέντρωση όλων των δεδομένων σε μια κεντρική δομή. Η εργασία αυτή προτείνει σαν ενδεχόμενη λύση την χρήση του Functional Geometric Monitoring (FGM) πρωτοκόλλου επικοινωνίας, που χρησιμοποιείται για την παρακολούθηση μεγάλου όγκου δεδομένων σε κατανεμημένο σύστημα, ώστε να μειωθεί το κόστος επικοινωνίας. Βασικός στόχος είναι να επιτύχουμε σφάλμα πρόβλεψης αντίστοιχο αυτού ενός κεντρικοποιημένου SVM αλγορίθμου αλλά σε κατανεμημένο σύστημα με ελαχιστοποιημένη επικοινωνία μεταξύ κόμβων. Ταυτόχρονα αποδείχθηκε ότι η sklearn βιβλιοθήκη της python που χρησιμοποιείται για κεντρικοποιημένη υλοποίηση machine learning αλγορίθμου μπορεί να αποδώσει εξίσου καλά σε μια κατανεμημένη δομή με χρήση της βιβλιοθήκης Dask και να επιτευχθεί σημαντική επιτάχυνση στην διαδικασία εκπαίδευσης του αλγορίθμου. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2020-08-18 | - |
Ημερομηνία Δημοσίευσης | 2020 | - |
Θεματική Κατηγορία | Classification | en |
Θεματική Κατηγορία | Functional geometric monitoring | en |
Θεματική Κατηγορία | Machine learning | en |
Θεματική Κατηγορία | Optimization | en |
Θεματική Κατηγορία | Support vector machines | en |
Βιβλιογραφική Αναφορά | Sofia Kampioti, "A functional geometric approach to distributed support vector machine (SVM) classification", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2020 | en |
Βιβλιογραφική Αναφορά | Σοφία Καμπιώτη, "Γεωμετρική προσέγγιση κατανεμημένης κατηγοριοποίησης με χρήση μηχανών υποστηρικτικών διανυσμάτων", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2020 | el |