Ioannis Christofilogiannis, "Feature selection in the Federated Machine Learning setting", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025
https://doi.org/10.26233/heallink.tuc.103131
Αυτή η διπλωματική εργασία παρουσιάζει δύο κύριες συνεισφορές για την προώθηση της έρευνας στην Ομοσπονδιακή Μάθηση (FL): Feature Election και το σύστημα FLEx. Το Feature Election είναι ένας νέος ομοσπονδιακός (federated) αλγόριθμος επιλογής χαρακτηριστικών που επιτρέπει στις παραδοσιακές μεθόδους επιλογής χαρακτηριστικών (FS) να λειτουργούν σε οριζόντια ομοσπονδιακά περιβάλλοντα χωρίς να αλλάζει η βασική τους λογική. Ο αλγόριθμος αξιοποιεί διανύσματα ψήφων που δημιουργούνται από τους πελάτες με βαθμολογίες προτίμησης, διατηρώντας παράλληλα το απόρρητο των δεδομένων, χρησιμοποιώντας μια παράμετρο βαθμού ελευθερίας που ελέγχει το πλήθος των χαρακτηριστικών που επιλέγονται. Η δεύτερη συνεισφορά, το FLEx (Federated Learning Exchange), είναι ένα ολοκληρωμένο σύστημα που συνδυάζει την απόδοση δικτύου της C++ με τις δυνατότητες μηχανικής μάθησης της Python με ενσωμάτωση μέσω της Cython, προστατευμένο από συμμετρική και από ασύμμετρη κρυπτογράφηση. Αυτό το σύστημα συγκρίνεται ευνοϊκά με ανταγωνιστικές λύσεις βάσει μετρικών αξιολόγησης από μια πρόσφατη έρευνα. Η πειραματική επικύρωση σε πέντε σύνολα δεδομένων χρησιμοποιώντας τρεις τύπους μοντέλων ML αποδεικνύει ότι αυτές οι συνεισφορές μειώνουν σημαντικά το κόστος της επικοινωνίας με μειώσεις μεγέθους παραμέτρων μοντέλου σε όλα τα πειράματα (έως 93,4%), διατηρώντας ή βελτιώνοντας την απόδοση του μοντέλου και μειώνοντας τον θόρυβο, την υπερπροσαρμογή και το υπολογιστικό κόστος. Η ενσωμάτωση του αλγορίθμου Feature Election με το σύστημα Flower πέτυχε μειώσεις μεγέθους μοντέλου έως 67,7%, ενώ τα πειράματα επαύξησης χαρακτηριστικών επιβεβαίωσαν την ανθεκτικότητα σε χώρους υψηλών διαστάσεων. Μαζί, το Feature Election και το FLEx καθιερώνουν ένα νέο παράδειγμα για δικτυακά αποδοτική ομοσπονδιακή μάθηση σε σενάρια περιορισμένου εύρους ζώνης με ευαίσθητα δεδομένα.