Το έργο με τίτλο Ομοσπονδιακή προσαρμογή χαμηλής τάξης για Μεγάλα Γλωσσικά Μοντέλα από τον/τους δημιουργό/ούς Kelaidis Kanakis διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Κελαϊδής Κανάκης, "Ομοσπονδιακή προσαρμογή χαμηλής τάξης για Μεγάλα Γλωσσικά Μοντέλα", Διπλωματική Εργασία, Πολυτεχνείο Κρήτης:Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Χανιά, Ελλάς, 2025
https://doi.org/10.26233/heallink.tuc.105019
Τα μεγάλα γλωσσικά μοντέλα (LLMs) έχουν γίνει απαραίτητα σε ένα μεγάλο πλήθος διαφορετικών εφαρμογών που εκτείνονται από συστήματα συνομιλίας έως και την αυτόματη παραγωγή κώδικα, καθιστώντας την προσαρμογή τους σε εξειδικευμένoυς τομείς αναγκαία. Ωστόσο, η ανάπτυξή τους συχνά περιορίζεται από την έλλειψη συγκεντρωμένων δεδομένων, το υψηλό υπολογιστικό κόστος και τις μεγάλες απαιτήσεις σε μνήμη. Η κεντρικοποίηση ιδιοκτησιακών δεδομένων είναι συχνά ανέφικτη, ενώ αν κάθε εταιρεία εκπαιδεύει αποκλειστικά στα περιορισμένα δεδομένα που διαθέτει, θα καταλήγει συνήθως σε υποδεέστερα μοντέλα. Η μέθοδος Federated Learning προσφέρει μια λύση καθώς επιτρέπει σε πολλαπλούς φορείς να συνεργάζονται χωρίς να κοινοποιούν τα δεδομένα τους, ωστόσο η άμεση εφαρμογή της σε τεράστιες αρχιτεκτονικές παραμένει υπολογιστικά δαπανηρή και απαιτητική ως προς την επικοινωνία. Σε αυτή τη διπλωματική παρουσιάζουμε μια μέθοδο για Federated tuning των LLMs μέσω Low-Rank Adaptation (LoRA), με έμφαση στην αποδοτικότητα και την ακρίβεια. Βασιζόμενοι στην πρόσφατη μελέτη DP-LoRA, επαναδιατυπώνουμε τον αλγόριθμο και μελετούμε το ανώτατο όριο απόδοσης της federated LoRA-tuning στη μη ιδιωτική εκδοχή της. Με την εισαγωγή μικρών πινάκων χαμηλής τάξης στα transformer attention layers, η LoRA μειώνει τον αριθμό των παραμέτρων που πρέπει να προσαρμοστούν κατά τάξεις μεγέθους, καθιστώντας την εκπαίδευση στο επίπεδο του χρήστη εφικτή και πιο οικονομική ως προς την επικοινωνία. Επίσης, υλοποιούμε μονάδες για τη διαμόρφωση των δεδομένων, την εξαγωγή αποτελεσμάτων και την ανάλυση τους, βελτιώνοντας τη διαδικασία προετοιμασίας και αξιολόγησης του μοντέλου, ενώ αιτιολογούμε την επιλογή του Gemma3-4B ως βασικό μοντέλο ανάμεσα σε μια πληθώρα εναλλακτικών επιλογών. Τα πειράματά μας συγκρίνονται με τα μη ιδιωτικά αποτελέσματα που αναφέρονται στη μελέτη DP-LoRA και δείχνουν ότι η προσέγγισή μας τα υπερβαίνει, θέτοντας ένα νέο σημείο αναφοράς για το συγκεκριμένο περιβάλλον. Τα ευρήματα αυτά αναδεικνύουν τη χρησιμότητα της παραμετρο-αποδοτικής federated προσαρμογής μεγάλων γλωσσικών μοντέλων σε σενάρια όπου η μεγιστοποίηση της ακρίβειας και της αποδοτικότητας αποτελεί τον κύριο στόχο, και υποδεικνύουν υποσχόμενες κατευθύνσεις για μελλοντική έρευνα με στόχο την περαιτέρω βελτίωση και ανάπτυξη αυτών των μεθόδων.