Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Παραγωγή ευάλωτου κώδικα από Μεγάλα Γλωσσικά Μοντέλα

Lyronis Stavros

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/0E7C64B9-C110-4978-BFA3-AE9BB73911D8-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.101189-
Γλώσσαen-
Μέγεθος843.8 Kilobytesen
Μέγεθος59 pagesen
ΤίτλοςVulnerable code generation by Large Language Models en
ΤίτλοςΠαραγωγή ευάλωτου κώδικα από Μεγάλα Γλωσσικά Μοντέλαel
ΔημιουργόςLyronis Stavrosen
ΔημιουργόςΛυρωνης Σταυροςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Παναγιωτης Ηλιαel
Συντελεστής [Επιβλέπων Καθηγητής]Ioannidis Sotiriosen
Συντελεστής [Επιβλέπων Καθηγητής]Ιωαννιδης Σωτηριοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Dollas Apostolosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Δολλας Αποστολοςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηThe vast amount of publicly available data and the improvements in the field of neural networks, combined with the limitless computational power of GPUs, led to the creation of a new paradigm of natural language processing models, also known as Large Language Models (LLMs). Beside the short period of LLM models’ availability, platforms such as ChatGPT and Bard have demonstrated impressive usability and effectiveness in handling text based tasks, such as passing the exams in various domains, writing essays, songs and poems, orchestrating marketing campaigns and more. Automated generation of source code based on user queries is one of these tasks, with a vast amount of developers having already adopted LLMs, in some form, into their working environments. In this thesis we demonstrate the risks correlated to LLM models’ truthfulness in terms of source code generation. More specifically, we manage to identify common and well-known vulnerabilities in the source code generated by most popular LLMs (ChatGPT, Bard and Copilot). Towards this goal, we deploy a series of interactive experiments based on role playing where LLMs are required to generate source code for naive developers that completely trust the model’s outcome. In order to evaluate security of the generated content we exploit different case scenarios where we inform the model with the concerns towards security. Our analysis reveals that current LLMs by default lack security concerns and provide vulnerable source code in most cases. Additionally, we manage to achieve secure code generation only in the case where we specifically ask LLMs to provide a secure solution via query manipulation. Finally, we argue that the usage of LLMs for critical cybersecurity tasks should be avoided, however they can be used for educational purposes or with proper query manipulation towards enforcing the secure implementation.en
ΠερίληψηΟ τεράστιος όγκος δημοσίως διαθέσιμων δεδομένων και οι βελτιώσεις στον τομέα των νευρωνικών δικτύων, σε συνδυασμό με την απεριόριστη υπολογιστική ισχύ των GPU, οδήγησαν στη δημιουργία ενός νέου παραδείγματος μοντέλων επεξεργασίας φυσικής γλώσσας, γνωστών και ως Large Language Models (LLM). Παρότι τα μοντέλα LLM έχουν γίνει διαθέσιμα πρόσφατα, πλατφόρμες όπως το ChatGPT και το Bard έχουν επιδείξει εντυπωσιακή χρηστικότητα και αποτελεσματικότητα στον χειρισμό εργασιών που βασίζονται σε κείμενο, όπως η επιτυχία στις εξετάσεις σε διάφορους τομείς, η συγγραφή δοκιμίων, τραγουδιών και ποιημάτων, η ενορχήστρωση εκστρατειών μάρκετινγκ και πολλά άλλα. Η αυτοματοποιημένη παραγωγή πηγαίου κώδικα με βάση ερωτήματα χρηστών είναι μία από αυτές τις εργασίες, με ένα τεράστιο πλήθος προγραμματιστών να έχουν ήδη υιοθετήσει τα LLM, σε κάποια μορφή, στο περιβάλλον εργασίας τους. Στην παρούσα εργασία παρουσιάζουμε τους κινδύνους που σχετίζονται με την αληθοφάνεια των μοντέλων LLM όσον αφορά τη δημιουργία πηγαίου κώδικα. Πιο συγκεκριμένα, καταφέρνουμε να εντοπίσουμε κοινές και γνωστές ευπάθειες στον πηγαίο κώδικα που παράγεται από τα πιο δημοφιλή LLM (ChatGPT, Bard και Copilot). Για την επίτευξη αυτού του στόχου, αναπτύσσου- με μια σειρά διαδραστικών πειραμάτων που βασίζονται σε παιχνίδια ρόλων, όπου τα LLM καλούνται να δημιουργήσουν πηγαίο κώδικα για αφελείς προγραμματιστές που εμπιστεύονται πλήρως το αποτέλεσμα του μοντέλου. Για να αξιολογήσουμε την ασφάλεια του παραγόμενου περιεχομένου αξιοποιούμε διάφορα σενάρια περιπτώσεων όπου ενημερώνουμε το μοντέλο με τις ανησυχίες προς την ασφάλεια. Η ανάλυσή μας αποκαλύπτει ότι τα υπάρχοντα LLM δεν έχουν ανησυχίες για την ασφάλεια εκ των προτέρων και παρέχουν ευάλωτο πηγαίο κώδικα στις περισσότερες περιπτώσεις. Επι- πλέον, καταφέρνουμε να επιτύχουμε ασφαλή παραγωγή κώδικα μόνο στην περίπτωση όπου ζητάμε ειδικά από τα LLM να παρέχουν μια ασφαλή λύση μέσω χειρισμού ε- ρωτημάτων. Τέλος, υποστηρίζουμε ότι η χρήση των LLMs για κρίσιμες εργασίες κυβερνοασφάλειας πρέπει να αποφεύγεται, ωστόσο μπορούν να χρησιμοποιηθούν για εκπαιδευτικούς σκοπούς ή με κατάλληλο χειρισμό ερωτημάτων προς την κατεύθυνση της επιβολής της ασφαλούς υλοποίησης.el
ΤύποςΜεταπτυχιακή Διατριβήel
ΤύποςMaster Thesisen
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2024-10-08-
Ημερομηνία Δημοσίευσης2024-
Θεματική ΚατηγορίαAI securityel
Βιβλιογραφική ΑναφοράStavros Lyronis, "Vulnerable code generation by Large Language Models", Master Thesis, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2024en
Βιβλιογραφική ΑναφοράΣταύρος Λυρώνης, "Παραγωγή ευάλωτου κώδικα από Μεγάλα Γλωσσικά Μοντέλα", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά