URI | http://purl.tuc.gr/dl/dias/FD1DD319-715B-4920-A518-2404172ABB59 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.101775 | - |
Γλώσσα | en | - |
Μέγεθος | 84 pages | en |
Μέγεθος | 2.8 megabytes | en |
Τίτλος | A systematic evaluation of the PPO algorithm for deep reinforcement learning in lane-free autonomous driving | en |
Τίτλος | Συστηματική αξιολόγηση του αλγόριθμου PPO για βαθιά ενισχυτική μάθηση σε αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας | el |
Δημιουργός | Akrivopoulos Grigorios | en |
Δημιουργός | Ακριβοπουλος Γρηγοριος | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Papamichail Ioannis | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Παπαμιχαηλ Ιωαννης | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Doitsidis Eleftherios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Δοιτσιδης Ελευθεριος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Chalkiadakis Georgios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Χαλκιαδακης Γεωργιος | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Production Engineering and Management | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Μηχανικών Παραγωγής και Διοίκησης | el |
Περίληψη | Lane-free traffic is a novel paradigm that targets environments fully comprised of Connected and Automated Vehicles (CAVs), where CAVs do not adhere to traffic lanes but can occupy any lateral position within the road boundaries. This gives rise to many research opportunities and innovative applications. At the same time, the field of Deep Reinforcement Learning (DRL) has gained momentum and continues to rapidly advance, with active lines of research for applications in autonomous driving. Specifically, Proximal Policy Optimization (PPO) is a recently introduced on-policy algorithm for DRL and is considered as one of the most prominent for modern DRL applications. As of now, research avenues for DRL in lane-free traffic have examined other algorithms not related to PPO or on-policy algorithms in general.
To this end, we build upon existing work for DRL in single-agent lane-free environments, where a CAV with the form of an agent has the task to learn a lane-free vehicle movement strategy while navigating a road populated with other CAVs. To effectively apply PPO in this setting, we extend an existing Markov Decision Process formulation of the problem with different new components, and systematically evaluate their influence on the agent’s learning performance. Firstly, we put forward an image state representation of surrounding traffic that captures the 2-dimensional movement of CAVs and compare it with the existing vector-based state input. Then, we formulate and examine different reward function terms that are better fitted for PPO. Moreover, we develop a blocking environment setting where the agent’s actions are filtered under some critical conditions. There, instead of the fully unconstrained learning environment, we observe the impact of a practical constraint that better guides the learning process away from the local maxima that we commonly experienced in practice.
Our experimental evaluation shows the improvement that each of the above-mentioned enhancements for PPO provides under the single-agent lane-free environment. The results indicate the agent’s capacity to learn strategies that overcome solutions of inferior quality that were initially observed under the original formulation targeting other methods. Motivated by the results, we believe that the proposed enhancements can serve as groundwork in future endeavours for PPO and other methods for DRL in lane-free traffic. | en |
Περίληψη | Η κυκλοφορία χωρίς λωρίδες (lane-free traffic) είναι ένα νέο ερευνητικό πεδίο που εξετάζει περιβάλλοντα που αποτελούνται πλήρως από Συνδεδεμένα και Αυτοματοποιημένα Οχήματα (Connected and Automated Vehicles, CAV), όπου τα CAV δεν είναι περιορισμένα στις καθιερωμένες λωρίδες κυκλοφορίας αλλά μπορούν να μετακινηθούν σε οποιαδήποτε πλευρική θέση εντός των ορίων του δρόμου. Αυτό έχει αποτελέσει βάση για αρκετές ερευνητικές εργασίες και καινοτόμες εφαρμογές. Ταυτόχρονα, ο τομέας της Βαθιάς Ενισχυτικής Μάθησης (Deep Reinforcement Learning, DRL) εξελίσσεται με ταχείς ρυθμούς τα τελευταία χρόνια, αλλά και με αρκετά ενεργή έρευνα σε εφαρμογές πάνω στην αυτόνομη οδήγηση. Πιο συγκεκριμένα, ο Proximal Policy Optimization (PPO) είναι ένας on-policy αλγόριθμος που προτάθηκε πρόσφατα για DRL και θεωρείται ένας από τους πιο δημοφιλείς σε σύγχρονες εφαρμογές. Μέχρι στιγμής, οι υφιστάμενες προσεγγίσεις για DRL σε κυκλοφορία χωρίς λωρίδες έχουν εξετάσει άλλους αλγόριθμους που δεν σχετίζονται με τον PPO ή γενικότερα με αλγόριθμους on-policy.
Για το σκοπό αυτό, βασιστήκαμε σε υπάρχουσα εργασία για DRL σε περιβάλλοντα χωρίς λωρίδες ενός πράκτορα (agent), όπου ένα CAV με τη μορφή ενός agent έχει ως στόχο να μάθει μια στρατηγική κίνησης οχημάτων χωρίς λωρίδες ενώ πλοηγείται σε έναν δρόμο αποτελούμενο από άλλα αυτόνομα CAV. Για να εφαρμόσουμε αποτελεσματικά τον PPO σε αυτό το περιβάλλον, επεκτείνουμε κατάλληλα με διαφορετικά νέα στοιχεία την υπάρχουσα μοντελοποίηση του προβλήματος ως μία Μαρκοβιανή Διαδικασία Λήψης Αποφάσεων (Markov Decision Process, MDP), και αξιολογούμε συστηματικά την επιρροή τους ως προς την επίδοση του μάθησης του πράκτορα. Αρχικά, προτείνουμε μια νέα αναπαράσταση της κατάστασης εισόδου με μορφή εικόνας της γειτονικής κυκλοφορίας που αποτυπώνει κατάλληλα τη δισδιάστατη κίνηση των CAV, και τη συγκρίνουμε με την υπάρχουσα κατάσταση εισόδου που έχει μορφή διανύσματος. Στη συνέχεια, σχηματίζουμε και εξετάζουμε διαφορετικούς όρους συνάρτησης ανταμοιβής που ταιριάζουν καλύτερα στον αλγόριθμο PPO. Επιπλέον, αναπτύσσουμε μια παραλλαγή του περιβάλλοντος όπου οι ενέργειες του πράκτορα φιλτράρονται κάτω από ορισμένες κρίσιμες συνθήκες. Εκεί, σε αντίθεση με το πλήρως ελεύθερο περιβάλλον μάθησης, βλέπουμε την επίδραση ενός πρακτικού περιορισμού που καθοδηγεί καλύτερα τη διαδικασία μάθησης μακριά από τα τοπικά μέγιστα που συνήθως αντιμετωπίζαμε στην πράξη.
Η πειραματική μας αξιολόγηση δείχνει τη βελτίωση που παρέχει καθεμία από τις προαναφερθείσες βελτιώσεις για τον αλγόριθμο PPO στο περιβάλλον χωρίς λωρίδες ενός πράκτορα. Τα αποτελέσματα υποδεικνύουν την ικανότητα του πράκτορα να μαθαίνει πολιτικές που ξεπερνούν προηγούμενες λύσεις που παρατηρήθηκαν στην υφιστάμενη προσέγγιση που στόχευε σε άλλες μεθόδους. Δεδομένων των πειραματικών αποτελεσμάτων, θεωρούμε ότι οι προτεινόμενες βελτιώσεις μπορούν να χρησιμεύσουν ως βάση σε μελλοντικές εργασίες για τον PPO αλλά και σε άλλους αλγόριθμους για DRL σε κυκλοφορία χωρίς λωρίδες. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2024-12-17 | - |
Ημερομηνία Δημοσίευσης | 2024 | - |
Θεματική Κατηγορία | Machine learning | en |
Θεματική Κατηγορία | Deep reinforcement learning | en |
Θεματική Κατηγορία | Lane-Free traffic | en |
Θεματική Κατηγορία | Autonomous driving | en |
Βιβλιογραφική Αναφορά | Grigorios Akrivopoulos, "A systematic evaluation of the PPO algorithm for deep reinforcement learning in lane-free autonomous driving", Diploma Work, School of Production Engineering and Management, Technical University of Crete, Chania, Greece, 2024 | en |
Βιβλιογραφική Αναφορά | Γρηγόριος Ακριβόπουλος, "Συστηματική αξιολόγηση του αλγόριθμου PPO για βαθιά ενισχυτική μάθηση σε αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας", Διπλωματική Εργασία, Σχολή Μηχανικών Παραγωγής και Διοίκησης, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024 | el |