Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Deep reinforcement learning in the Flatland multi-agent environment

Ntaountakis Stavros

Simple record


URIhttp://purl.tuc.gr/dl/dias/CBCE2963-77DB-4CEE-81D4-190709E5A62B-
Identifierhttps://doi.org/10.26233/heallink.tuc.90660-
Languageen-
Extent71 pagesen
Extent4.1 megabytesen
TitleDeep reinforcement learning in the Flatland multi-agent environmenten
TitleΒαθιά ενισχυτική μάθηση στο πολυπρακτορικό περιβάλλον Flatlandel
CreatorNtaountakis Stavrosen
CreatorΝταουντακης Σταυροςel
Contributor [Thesis Supervisor]Chalkiadakis Georgiosen
Contributor [Thesis Supervisor]Χαλκιαδακης Γεωργιοςel
Contributor [Committee Member]Lagoudakis Michailen
Contributor [Committee Member]Λαγουδακης Μιχαηλel
Contributor [Committee Member]Γιαννακάκης Γεώργιοςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
DescriptionΔιπλωματική εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης του Πτυχίουel
Content SummaryOver the last few years, railway traffic networks have been increasing in size and complexity due to the ever-growing transportation demands. As a result, railway companies, such as the Swiss Federal Railway company, need to constantly adapt to the increasing transportation demands. FlatLand is a simplified 2D grid simulation that mimics the dynamics of a railway network and was developed as an open sandbox to accelerate academic research on the Vehicle Rescheduling Problem (or VRSP) in the fields of Machine Learning and Operations Research. FlatLand is characterized by many of the common problems that need to be tackled in multi-agent systems. The coexistence of multiple autonomous agents results in a non-stationary environment and a partially-observable state space. At the same time the rewards received by the agents are sparse and delayed, since coordinated sequence of actions are usually required for yielding such positive rewards. Under these considerations, in this thesis, we implement and adapt various Deep Reinforcement Learning methods in the environment of FlatLand. We systematically compare and evaluate both value-based and policy-based methods on various metrics of performance and reliability. We ensure consistent and fair training conditions by employing each agent on a strictly defined training and evaluation setup. We implement standard DQN methods, as well the Double and Dueling Double DQN variants, and adapt them to multiple agents. Additionally, we implement a modified PPO agent as well as a superior PPO agent attached to a Replay Buffer. Lastly, we propose SIL, an agent that combines PPO with Self-Imitation and converges to a successfull policy in most environment settings. SIL is shown to excibit superior performance with respect to all other agents we implemented and tested. en
Content SummaryΤα τελευταία χρόνια, τα δίκτυα σιδηροδρομικών σταθμών αυξάνονται συνεχώς σε μέγεθος και πολυπλοκότητα λόγω των συνεχώς αυξανόμενων αναγκών μετακίνησης. Ως αποτέλεσμα, οι σιδηροδρομικές εταιρίες, όπως η Swiss Federal Railway, χρειάζεται να προσαρμόζονται συνεχώς στις αυξανόμενες αυτές ανάγκες. Το FlatLand είναι ένα απλοποιημένο δισδιάστατο περιβάλλον, το οποίο προσομοιώνει τις δυναμικές ενός σιδηροδρομικού δικτύου και δημιουργήθηκε ως μια ανοιχτή πλατφόρμα με στόχο την επιτάχυνση της ακαδημαϊκής έρευνας στο πρόβλημα αναπρογραμματισμού οχημάτων, αξιοποιώντας τα πεδία της Μηχανικής Μάθησης και της Επιχειρησιακής Έρευνας. Το FlatLand χαρακτηρίζεται από τα περισσότερα από τα κοινά προβλήματα που πρέπει να αντιμετωπιστούν σε ένα πολυπρακτορικό σύστημα. Η συνύπαρξη πολλαπλών αυτόνομων πρακτόρων έχει ως αποτέλεσμα την μη στασιμότητα του περιβάλλοντος και την μερική παρατηρησιμότητα του χώρου καταστάσεων. Ταυτόχρονα, οι επιβραβεύσεις που λαμβάνουν οι πράκτορες στο FlatLand είναι αραιές και καθυστερημένες, διότι συνήθως πρέπει να προηγηθεί μια συγχρονισμένη ακολουθία σωστών κινήσεων, ώστε αυτές να ληφθούν. Υπό αυτές τις θεωρήσεις, σε αυτήν την διπλωματική εργασία, εφαρμόζουμε και προσαρμόζουμε διάφορες τεχνικές Βαθιάς Ενισχυτικής Μάθησης στο περιβάλλον FlatLand. Συγκρίνουμε και αξιολογούμε αυτές τις μεθόδους συστηματικά, μέσω διαφόρων μετρικών απόδοσης και αξιοπιστίας. Εξασφαλίζουμε σταθερές και ισότιμες συνθήκες εκπαίδευσης, και εκπαιδεύουμε τον κάθε πράκτορα σε ένα αυστηρά καθορισμένο περιβάλλον εκπαίδευσης και αξιολόγησης. Υλοποιούμε μεθόδους, όπως την γνωστή και επιτυχημένη DQN, καθώς και τις παραλλαγές της, Double και Dueling Double DQN, και τις προσαρμόζουμε σε συνθήκες πολλαπλών πρακτόρων. Επιπλέον, υλοποιούμε μία τροποποιημένη εκδοχή του αλγόριθμου PPO, καθώς και μια βελτιωμένη εκδοχή ενός PPO αλγόριθμου προσδεδεμένου σε έναν Replay Buffer. Τέλος, προτείνουμε τον SIL, έναν πράκτορα που συνδυάζει την μέθοδο PPO με την τεχνική της αυτομίμησης. Μέσω μεθοδικών πειραματισμών, επιδεικνύουμε την ανωτερότητα του SIL σε απόδοση, σε σχέση με όλους τους πράκτορες που υλοποιήσαμε.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2021-10-18-
Date of Publication2021-
SubjectReinforcement learningen
SubjectΕνισχυτική μάθησηel
Bibliographic CitationStavros Ntaountakis, "Deep reinforcement learning in the Flatland multi-agent environment", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021en
Bibliographic CitationΣταύρος Νταουντάκης, "Βαθιά ενισχυτική μάθηση στο πολυπρακτορικό περιβάλλον Flatland", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021el

Available Files

Services

Statistics