Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Συστηματική αναζήτηση και ενισχυτική μάθηση για το επιτραπέζιο παιχνίδι "Amazons"

Konstantakis Georgios

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/F6CCE2BB-554D-4944-8E06-5F9EC32D9694
Έτος 2017
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Γεώργιος Κωνσταντάκης, "Συστηματική αναζήτηση και ενισχυτική μάθηση για το επιτραπέζιο παιχνίδι "Amazons"", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2017 https://doi.org/10.26233/heallink.tuc.68543
Εμφανίζεται στις Συλλογές

Περίληψη

Τα παιχνίδια αποτελούσαν πάντα ένα πολύτιμο κομμάτι της έρευνας στον τομέα της Τεχνητής Νοημοσύνης και της Μηχανικής Μάθησης λόγω των υψηλών δεξιοτήτων που απαιτούν. Η παρούσα διπλωματική εργασία επικεντρώνεται στο επιτραπέζιο παιχνίδι Amazons, το οποίο τα τελευταία χρόνια έχει αρχίσει να προσελκύει ερευνητές του τομέα της Τεχνητής Νοημοσύνης και της Μηχανικής Μάθησης. Το Amazons είναι ένα παιχνίδι σκακιέρας που παίζεται από δύο παίκτες με εναλλασσόμενες κινήσεις. Κάθε παίκτης χειρίζεται 4 πούλια που κινούνται όπως οι βασίλισσες στο σκάκι, αλλά μετά από κάθε κίνηση πρέπει να τοποθετηθεί κάποιο μόνιμο εμπόδιο σε κάποια θέση στην σκακιέρα βάσει των κανόνων του παιχνιδιού. Νικητής είναι ο παίκτης που θα παγιδεύσει τον αντίπαλό του, ώστε να μην μπορεί να κινηθεί. Χαρακτηριστικό του παιχνιδιού είναι ο μεγάλος αριθμός επιλογών σε κάθε κίνηση. Στόχος της εργασίας είναι ο σχεδιασμός ενός αυτόνομου πράκτορα, ο οποίος θα είναι ικανός να παίξει ανταγωνιστικά το παιχνίδι, αλλά και ένα παραμετροποιήσιμο γραφικό περιβάλλον, μέσω του οποίου μπορούν οπτικοποιηθούν και να διεξαχθούν παιχνίδια μεταξύ διαφόρων παικτών (πρακτόρων ή ανθρώπων). Η στρατηγική του πράκτορά μας για την επιλογή κινήσεων βασίζεται στον αλγόριθμο αναζήτησης MiniMax με α-β Pruning σε συνδυασμό με μια προσθήκη εμπνευσμένη από τον αλγόριθμο Monte Carlo Tree Search. Σημαντικό ρόλο στην αξιολόγηση κινήσεων έχει η συνάρτηση αξιολόγησης που σχεδιάστηκε, τα βάρη της οποίας προσαρμόζονται μέσω του αλγορίθμου ενισχυτικής μάθησης TD-Learning κατά την εκτέλεση πολλών επαναλήψεων του παιχνιδιού. Ο συνδυασμός των παραπάνω οδήγησε στην δημιουργία διάφορων αποδοτικών παικτών, οι οποίοι αξιολογήθηκαν στα πλαίσια ενός τουρνουά.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά