Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Αποδοτική ενισχυτική μάθηση σε παιχνίδια με αντιπαλότητα

Skoulakis Ioannis

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/B28C3C09-4B40-460B-8E86-BEC27920D173-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.83853-
Γλώσσαen-
Μέγεθος83 pagesen
ΤίτλοςEfficient reinforcement learning in adversarial gamesen
ΤίτλοςΑποδοτική ενισχυτική μάθηση σε παιχνίδια με αντιπαλότηταel
ΔημιουργόςSkoulakis Ioannisen
ΔημιουργόςΣκουλακης Ιωαννηςel
Συντελεστής [Επιβλέπων Καθηγητής]Lagoudakis Michailen
Συντελεστής [Επιβλέπων Καθηγητής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Deligiannakis Antoniosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Δεληγιαννακης Αντωνιοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Samoladas Vasilisen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Σαμολαδας Βασιληςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηThe ability of learning is critical for agents designed to compete in a variety of two-player, turn-taking, tactical adversarial games, such as Backgammon, Othello/Reversi, Chess, Hex, etc. The mainstream approach to learning in such games consists of updating some state evaluation function usually in a Temporal Difference (TD) sense either under the MiniMax optimality criterion or under optimization against a specific opponent. However, this approach is limited by several factors: (a) updates to the evaluation function are incremental, (b) stored samples from past games cannot be utilized, and (c) the quality of each update depends on the current evaluation function due to bootstrapping. In this thesis, we present four variations of a learning approach based on the Least-Squares Policy Iteration (LSPI) algorithm that overcome these limitations by focusing on learning a state-action evaluation function. The key advantage of the proposed approaches is that the agent can make batch updates to the evaluation function with any collection of samples, can utilize samples from past games, and can make updates that do not depend on the current evaluation function since there is no bootstrapping. We demonstrate the efficiency and the competency of the LSPI agents over the TD agent and selected benchmark opponents in the classical board games of Othello/Reversi and Backgammon.en
ΠερίληψηΗ μάθηση είναι μία κρίσιμη ικανότητα για πράκτορες που σχεδιάζονται για να λαμβάνουν μέρος σε ανταγωνιστικά παιχνίδια εναλλασσόμενων κινήσεων δύο παικτών όπως το τάβλι, το Othello, το σκάκι, το Hex, κλπ. Η επικρατούσα προσέγγιση της μάθησης σε παιχνίδια αυτού του είδους συνίσταται στην ενημέρωση κάποιας συνάρτησης αξιολόγησης καταστάσεων, συνήθως με την έννοια της χρονικής διαφοράς (TD) είτε υπό το κριτήριο βελτιστοποίησης MiniMax είτε υπό βελτιστοποίηση έναντι συγκεκριμένου αντιπάλου. Ωστόσο, η προσέγγιση αυτή περιορίζεται από διάφορους παράγοντες: (α) οι ενημερώσεις στη συνάρτηση αξιολόγησης είναι σταδιακές, (β) δείγματα από προηγούμενα παιχνίδια δεν μπορούν να αξιοποιηθούν, και (γ) η ποιότητα κάθε ενημέρωσης εξαρτάται από την τρέχουσα συνάρτηση αξιολόγησης. Σε αυτή τη διατριβή, παρουσιάζουμε τέσσερις παραλλαγές μιας προσέγγισης μάθησης βασισμένης στον αλγόριθμο Least-Squares Policy Iteration (LSPI) που εστιάζονται στην εκμάθηση συναρτήσεων αξιολόγησης καταστάσεων-ενεργειών (state-action) και δεν πλήττονται από τους προαναφερθέντες περιορισμούς. Το βασικό πλεονέκτημα των προτεινόμενων προσεγγίσεων είναι ότι ο πράκτορας μπορεί να κάνει μαζικές ενημερώσεις στη συνάρτηση αξιολόγησης με οποιαδήποτε συλλογή δειγμάτων, μπορεί να αξιοποιήσει δείγματα από παρελθόντα παιχνίδια, και μπορεί να κάνει ενημερώσεις που δεν εξαρτώνται από την τρέχουσα συνάρτηση αξιολόγησης. Παρουσιάζουμε την αποτελεσματικότητα και την ανταγωνιστικότητα των LSPI πρακτόρων έναντι του TD πράκτορα και επιλεγμένων ‘δύσκολων’ πρακτόρων στα κλασικά επιτραπέζια παιχνίδια Othello και τάβλι.el
ΤύποςΜεταπτυχιακή Διατριβήel
ΤύποςMaster Thesisen
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2019-11-18-
Ημερομηνία Δημοσίευσης2019-
Θεματική ΚατηγορίαΕνισχυτική μάθησηel
Θεματική ΚατηγορίαReinforcement learningen
Θεματική ΚατηγορίαΠαιχνίδια με αντιπαλότηταel
Θεματική ΚατηγορίαAdversarial gamesen
Θεματική ΚατηγορίαValue function approximationen
Θεματική ΚατηγορίαLeast-squares policy iterationen
Θεματική ΚατηγορίαTemporal-difference learningen
Βιβλιογραφική ΑναφοράΙωάννης Σκουλάκης, "Αποδοτική ενισχυτική μάθηση σε παιχνίδια με αντιπαλότητα", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019el
Βιβλιογραφική ΑναφοράIoannis Skoulakis, "Efficient reinforcement learning in adversarial games", Master Thesis, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019en

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά