A functional geometric approach to distributed support vector machine (SVM) classificationA functional geometric approach to distributed support vector machine (SVM) classificationΓεωμετρική προσέγγιση κατανεμημένης κατηγοριοποίησης με χρήση μηχανών υποστηρικτικών διανυσμάτων Διπλωματική Εργασία Diploma Work 2020-08-182020enWe live in the information age, and with every passing year, our environment becomes more and more heavily defined by data, leading to a major need for better decision-making models. The breakthroughs in data analytics have already seen through machine learning. Support vector machines (SVM) are a popular, adaptive, multipurpose machine learning algorithm with the ability to capture complex relationships between data points without having to perform difficult transformations. We study the problem of prohibitive communication costs that a centralized architecture implies if most of the data is generated or received on different remote machines. The past few years notable efforts have been made to achieve parallelism on the training procedure of machine learning models. We propose the use of Functional Geometric Monitoring (FGM) communication protocol which is used to monitor high-volume, rapid distributed streams to decrease the communication cost on a distributed SVM architecture. Our main goal is both to achieve centralized-like prediction loss and to minimize communication costs. In our proposal, the sklearn library, for centralized machine learning, is used in a distributed manner, with the use of Dask library, resulting in a notable speedup for the training procedure.Ζούμε σε ένα περιβάλλον όπου οι πληροφορίες ρέουν ακατάπαυστα και με το πέρασμα των χρόνων το περιβάλλον μας διέπεται ολοένα και περισσότερο από δεδομένα, δημιουργώντας έτσι την ανάγκη για την κατασκευή καλύτερων μοντέλων για την διαχείριση τους. Η επανάσταση στον τομέα της ανάλυσης δεδομένων έχει ήδη ξεκινήσει με την χρήση machine learning αλγορίθμων. Οι Support Vector Machine (SVM) αλγόριθμοι είναι μια κατηγορία δημοφιλών machine learning αλγορίθμων, με μεγάλη προσαρμοστικότητα και πολλαπλές περιπτώσεις χρήσης καθώς έχουν την ικανότητα να εντοπίζουν πολύπλοκες συσχετίσεις μεταξύ δεδομένων χωρίς υψηλή υπολογιστική πολυπλοκότητα. Σε αυτήν την εργασία μελετήθηκε το πρόβλημα του υψηλού κόστους επικοινωνίας που παρατηρείται στην περίπτωση που τα δεδομένα παράγονται σε απομακρυσμένες πηγές και συλλέγονται σε μια μόνο δομή για την επεξεργασία τους. Τα τελευταία χρόνια έχουν γίνει αξιόλογες προσπάθειες ώστε να επιτευχθεί παραλληλισμός στην διαδικασία εκπαίδευσης machine learning αλγορίθμων ώστε να αποφευχθεί η συγκέντρωση όλων των δεδομένων σε μια κεντρική δομή. Η εργασία αυτή προτείνει σαν ενδεχόμενη λύση την χρήση του Functional Geometric Monitoring (FGM) πρωτοκόλλου επικοινωνίας, που χρησιμοποιείται για την παρακολούθηση μεγάλου όγκου δεδομένων σε κατανεμημένο σύστημα, ώστε να μειωθεί το κόστος επικοινωνίας. Βασικός στόχος είναι να επιτύχουμε σφάλμα πρόβλεψης αντίστοιχο αυτού ενός κεντρικοποιημένου SVM αλγορίθμου αλλά σε κατανεμημένο σύστημα με ελαχιστοποιημένη επικοινωνία μεταξύ κόμβων. Ταυτόχρονα αποδείχθηκε ότι η sklearn βιβλιοθήκη της python που χρησιμοποιείται για κεντρικοποιημένη υλοποίηση machine learning αλγορίθμου μπορεί να αποδώσει εξίσου καλά σε μια κατανεμημένη δομή με χρήση της βιβλιοθήκης Dask και να επιτευχθεί σημαντική επιτάχυνση στην διαδικασία εκπαίδευσης του αλγορίθμου. http://creativecommons.org/licenses/by/4.0/Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών ΥπολογιστώνKampioti_Sofia_Dip_2020.pdfChania [Greece]Library of TUC2020-08-18application/pdf1.9 MBfree Kampioti Sofia Καμπιωτη Σοφια Samoladas Vasilis Σαμολαδας Βασιλης Deligiannakis Antonios Δεληγιαννακης Αντωνιος Garofalakis Minos Γαροφαλακης Μινως Πολυτεχνείο Κρήτης Technical University of Crete Classification Functional geometric monitoring Machine learning Optimization Support vector machines