Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Βαθιά ενισχυτική μάθηση για σχηματισμό επικαλυπτόμενων συνασπισμών

Koresis Gerasimos

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/E1A2B4AB-2F8D-4005-A019-7106B1183C2D
Έτος 2023
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Γεράσιμος Κορέσης, "Βαθιά ενισχυτική μάθηση για σχηματισμό επικαλυπτόμενων συνασπισμών", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2023 https://doi.org/10.26233/heallink.tuc.98296
Εμφανίζεται στις Συλλογές

Περίληψη

Η παρούσα διπλωματική εμβαθύνει στο δυναμικό τοπίο του Σχηματισμού Επικαλυπτόμενων Συνασπισμών (OCF), αξιοποιώντας τη δύναμη του Deep Reinforcement Μάθηση (DRL), για την πλοήγηση στις αβεβαιότητες που είναι εγγενείς σε διαδοχικές συνεργατικές αλληλεπιδράσεις πολλαπλών παραγόντων. Η κεντρική έρευνα περιστρέφεται γύρω από την αντιμετώπιση της αβεβαιότητας σχετικά με τους βαθμούς συνεργασίας (DoC) μεταξύ των τύπων πρακτόρων, οι οποίοι θεωρούμε ότι καθορίζουν την αποτελεσματικότητα των συνασπισμών που σχηματίζονται από τους πράκτορες. Η μελέτη εκτυλίσσεται σε πολλαπλές διαστάσεις. Πρώτον, πραγματοποιείται μια εξερεύνηση των τεχνικών RL και DRL, δίνοντας έμφαση στην εφαρμογή τους στις περίπλοκες προκλήσεις που θέτουν τα σενάρια OCF. Ο πυρήνας της έρευνας βρίσκεται στην αντιμετώπιση της αβεβαιότητας σχετικά με την αξία της συνεργασίας για δημιουργία συνασπισμών, που αντικατοπτρίζεται από τους προαναφερθέντες DoC. Ως απάντηση, η μελέτη ενσωματώνει σε ένα πλαίσιο μάθησης και λήψης αποφάσεων που χρησιμοποιεί DRL, τα νευρωνικά δίκτυα σε γράφους (GNN). Ειδικότερα, η εργασία μας περιγράφει λεπτομερώς τη συνεργιστική ολοκλήρωση των DRL (συγκεκριμένα, Deep Q-Networks - DQN) και GNN (συγκεκριμένα, Graph Attention Networks - GAT), επιδεικνύοντας την ικανότητα του συνδυασμού τους να προσαρμόζεται στο διαρκώς μεταβαλλόμενο αβάβαιο τοπίο συνεργασίας. Τα αποτελέσματα της πειραματικής μας αξιολόγησης υπογραμμίζουν την αποτελεσματικότητα αυτής της υβριδικής προσέγγισης στη βελτίωση των ακολουθιακών αποφάσεων σχηματισμού συνασπισμού υπό αβεβαιότητα. Εξερευνήσαμε διάφορες παραλλαγές της DRL+GNN προσέγγισής μας, με τα αποτελέσματα της προσομοίωσής μας να υποδηλώνουν ως την πλέον επωφελή την αλληλοδιαπλοκή του DQN με ενημερώσεις GAT των DoC που λαμβάνουν χώρα κάθε φορά που αλλάζει ο προτείνων τον σχηματισμό. Τέλος, στην εργασία μας πραγματοποιούμε κάποια αρχικά βήματα για την αντιμετώπιση των εγγενών σε αυτό το πολυπρακτορικό πρόβλημα προκλήσεων επεκτασιμότητας, και θέτει τις βάσεις για μελλοντικές βελτιώσεις.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά