Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Βαθιά ενισχυτική μάθηση στο πολυπρακτορικό περιβάλλον Flatland

Ntaountakis Stavros

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/CBCE2963-77DB-4CEE-81D4-190709E5A62B-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.90660-
Γλώσσαen-
Μέγεθος71 pagesen
Μέγεθος4.1 megabytesen
ΤίτλοςDeep reinforcement learning in the Flatland multi-agent environmenten
ΤίτλοςΒαθιά ενισχυτική μάθηση στο πολυπρακτορικό περιβάλλον Flatlandel
ΔημιουργόςNtaountakis Stavrosen
ΔημιουργόςΝταουντακης Σταυροςel
Συντελεστής [Επιβλέπων Καθηγητής]Chalkiadakis Georgiosen
Συντελεστής [Επιβλέπων Καθηγητής]Χαλκιαδακης Γεωργιοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Lagoudakis Michailen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Γιαννακάκης Γεώργιοςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠεριγραφήΔιπλωματική εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης του Πτυχίουel
ΠερίληψηOver the last few years, railway traffic networks have been increasing in size and complexity due to the ever-growing transportation demands. As a result, railway companies, such as the Swiss Federal Railway company, need to constantly adapt to the increasing transportation demands. FlatLand is a simplified 2D grid simulation that mimics the dynamics of a railway network and was developed as an open sandbox to accelerate academic research on the Vehicle Rescheduling Problem (or VRSP) in the fields of Machine Learning and Operations Research. FlatLand is characterized by many of the common problems that need to be tackled in multi-agent systems. The coexistence of multiple autonomous agents results in a non-stationary environment and a partially-observable state space. At the same time the rewards received by the agents are sparse and delayed, since coordinated sequence of actions are usually required for yielding such positive rewards. Under these considerations, in this thesis, we implement and adapt various Deep Reinforcement Learning methods in the environment of FlatLand. We systematically compare and evaluate both value-based and policy-based methods on various metrics of performance and reliability. We ensure consistent and fair training conditions by employing each agent on a strictly defined training and evaluation setup. We implement standard DQN methods, as well the Double and Dueling Double DQN variants, and adapt them to multiple agents. Additionally, we implement a modified PPO agent as well as a superior PPO agent attached to a Replay Buffer. Lastly, we propose SIL, an agent that combines PPO with Self-Imitation and converges to a successfull policy in most environment settings. SIL is shown to excibit superior performance with respect to all other agents we implemented and tested. en
ΠερίληψηΤα τελευταία χρόνια, τα δίκτυα σιδηροδρομικών σταθμών αυξάνονται συνεχώς σε μέγεθος και πολυπλοκότητα λόγω των συνεχώς αυξανόμενων αναγκών μετακίνησης. Ως αποτέλεσμα, οι σιδηροδρομικές εταιρίες, όπως η Swiss Federal Railway, χρειάζεται να προσαρμόζονται συνεχώς στις αυξανόμενες αυτές ανάγκες. Το FlatLand είναι ένα απλοποιημένο δισδιάστατο περιβάλλον, το οποίο προσομοιώνει τις δυναμικές ενός σιδηροδρομικού δικτύου και δημιουργήθηκε ως μια ανοιχτή πλατφόρμα με στόχο την επιτάχυνση της ακαδημαϊκής έρευνας στο πρόβλημα αναπρογραμματισμού οχημάτων, αξιοποιώντας τα πεδία της Μηχανικής Μάθησης και της Επιχειρησιακής Έρευνας. Το FlatLand χαρακτηρίζεται από τα περισσότερα από τα κοινά προβλήματα που πρέπει να αντιμετωπιστούν σε ένα πολυπρακτορικό σύστημα. Η συνύπαρξη πολλαπλών αυτόνομων πρακτόρων έχει ως αποτέλεσμα την μη στασιμότητα του περιβάλλοντος και την μερική παρατηρησιμότητα του χώρου καταστάσεων. Ταυτόχρονα, οι επιβραβεύσεις που λαμβάνουν οι πράκτορες στο FlatLand είναι αραιές και καθυστερημένες, διότι συνήθως πρέπει να προηγηθεί μια συγχρονισμένη ακολουθία σωστών κινήσεων, ώστε αυτές να ληφθούν. Υπό αυτές τις θεωρήσεις, σε αυτήν την διπλωματική εργασία, εφαρμόζουμε και προσαρμόζουμε διάφορες τεχνικές Βαθιάς Ενισχυτικής Μάθησης στο περιβάλλον FlatLand. Συγκρίνουμε και αξιολογούμε αυτές τις μεθόδους συστηματικά, μέσω διαφόρων μετρικών απόδοσης και αξιοπιστίας. Εξασφαλίζουμε σταθερές και ισότιμες συνθήκες εκπαίδευσης, και εκπαιδεύουμε τον κάθε πράκτορα σε ένα αυστηρά καθορισμένο περιβάλλον εκπαίδευσης και αξιολόγησης. Υλοποιούμε μεθόδους, όπως την γνωστή και επιτυχημένη DQN, καθώς και τις παραλλαγές της, Double και Dueling Double DQN, και τις προσαρμόζουμε σε συνθήκες πολλαπλών πρακτόρων. Επιπλέον, υλοποιούμε μία τροποποιημένη εκδοχή του αλγόριθμου PPO, καθώς και μια βελτιωμένη εκδοχή ενός PPO αλγόριθμου προσδεδεμένου σε έναν Replay Buffer. Τέλος, προτείνουμε τον SIL, έναν πράκτορα που συνδυάζει την μέθοδο PPO με την τεχνική της αυτομίμησης. Μέσω μεθοδικών πειραματισμών, επιδεικνύουμε την ανωτερότητα του SIL σε απόδοση, σε σχέση με όλους τους πράκτορες που υλοποιήσαμε.el
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2021-10-18-
Ημερομηνία Δημοσίευσης2021-
Θεματική ΚατηγορίαReinforcement learningen
Θεματική ΚατηγορίαΕνισχυτική μάθησηel
Βιβλιογραφική ΑναφοράStavros Ntaountakis, "Deep reinforcement learning in the Flatland multi-agent environment", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021en
Βιβλιογραφική ΑναφοράΣταύρος Νταουντάκης, "Βαθιά ενισχυτική μάθηση στο πολυπρακτορικό περιβάλλον Flatland", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά