Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Αποδοτική ενισχυτική μάθηση σε παιχνίδια με αντιπαλότητα

Skoulakis Ioannis

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/B28C3C09-4B40-460B-8E86-BEC27920D173
Έτος 2019
Τύπος Μεταπτυχιακή Διατριβή
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Ιωάννης Σκουλάκης, "Αποδοτική ενισχυτική μάθηση σε παιχνίδια με αντιπαλότητα", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019 https://doi.org/10.26233/heallink.tuc.83853
Εμφανίζεται στις Συλλογές

Περίληψη

Η μάθηση είναι μία κρίσιμη ικανότητα για πράκτορες που σχεδιάζονται για να λαμβάνουν μέρος σε ανταγωνιστικά παιχνίδια εναλλασσόμενων κινήσεων δύο παικτών όπως το τάβλι, το Othello, το σκάκι, το Hex, κλπ. Η επικρατούσα προσέγγιση της μάθησης σε παιχνίδια αυτού του είδους συνίσταται στην ενημέρωση κάποιας συνάρτησης αξιολόγησης καταστάσεων, συνήθως με την έννοια της χρονικής διαφοράς (TD) είτε υπό το κριτήριο βελτιστοποίησης MiniMax είτε υπό βελτιστοποίηση έναντι συγκεκριμένου αντιπάλου. Ωστόσο, η προσέγγιση αυτή περιορίζεται από διάφορους παράγοντες: (α) οι ενημερώσεις στη συνάρτηση αξιολόγησης είναι σταδιακές, (β) δείγματα από προηγούμενα παιχνίδια δεν μπορούν να αξιοποιηθούν, και (γ) η ποιότητα κάθε ενημέρωσης εξαρτάται από την τρέχουσα συνάρτηση αξιολόγησης. Σε αυτή τη διατριβή, παρουσιάζουμε τέσσερις παραλλαγές μιας προσέγγισης μάθησης βασισμένης στον αλγόριθμο Least-Squares Policy Iteration (LSPI) που εστιάζονται στην εκμάθηση συναρτήσεων αξιολόγησης καταστάσεων-ενεργειών (state-action) και δεν πλήττονται από τους προαναφερθέντες περιορισμούς. Το βασικό πλεονέκτημα των προτεινόμενων προσεγγίσεων είναι ότι ο πράκτορας μπορεί να κάνει μαζικές ενημερώσεις στη συνάρτηση αξιολόγησης με οποιαδήποτε συλλογή δειγμάτων, μπορεί να αξιοποιήσει δείγματα από παρελθόντα παιχνίδια, και μπορεί να κάνει ενημερώσεις που δεν εξαρτώνται από την τρέχουσα συνάρτηση αξιολόγησης. Παρουσιάζουμε την αποτελεσματικότητα και την ανταγωνιστικότητα των LSPI πρακτόρων έναντι του TD πράκτορα και επιλεγμένων ‘δύσκολων’ πρακτόρων στα κλασικά επιτραπέζια παιχνίδια Othello και τάβλι.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά