Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Συστηματική αξιολόγηση του αλγόριθμου PPO για βαθιά ενισχυτική μάθηση σε αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας

Akrivopoulos Grigorios

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/FD1DD319-715B-4920-A518-2404172ABB59-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.101775-
Γλώσσαen-
Μέγεθος84 pagesen
Μέγεθος2.8 megabytesen
ΤίτλοςA systematic evaluation of the PPO algorithm for deep reinforcement learning in lane-free autonomous drivingen
ΤίτλοςΣυστηματική αξιολόγηση του αλγόριθμου PPO για βαθιά ενισχυτική μάθηση σε αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίαςel
ΔημιουργόςAkrivopoulos Grigoriosen
ΔημιουργόςΑκριβοπουλος Γρηγοριοςel
Συντελεστής [Επιβλέπων Καθηγητής]Papamichail Ioannisen
Συντελεστής [Επιβλέπων Καθηγητής]Παπαμιχαηλ Ιωαννηςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Doitsidis Eleftheriosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Δοιτσιδης Ελευθεριοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Chalkiadakis Georgiosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Χαλκιαδακης Γεωργιοςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Production Engineering and Managementen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Μηχανικών Παραγωγής και Διοίκησηςel
ΠερίληψηLane-free traffic is a novel paradigm that targets environments fully comprised of Connected and Automated Vehicles (CAVs), where CAVs do not adhere to traffic lanes but can occupy any lateral position within the road boundaries. This gives rise to many research opportunities and innovative applications. At the same time, the field of Deep Reinforcement Learning (DRL) has gained momentum and continues to rapidly advance, with active lines of research for applications in autonomous driving. Specifically, Proximal Policy Optimization (PPO) is a recently introduced on-policy algorithm for DRL and is considered as one of the most prominent for modern DRL applications. As of now, research avenues for DRL in lane-free traffic have examined other algorithms not related to PPO or on-policy algorithms in general. To this end, we build upon existing work for DRL in single-agent lane-free environments, where a CAV with the form of an agent has the task to learn a lane-free vehicle movement strategy while navigating a road populated with other CAVs. To effectively apply PPO in this setting, we extend an existing Markov Decision Process formulation of the problem with different new components, and systematically evaluate their influence on the agent’s learning performance. Firstly, we put forward an image state representation of surrounding traffic that captures the 2-dimensional movement of CAVs and compare it with the existing vector-based state input. Then, we formulate and examine different reward function terms that are better fitted for PPO. Moreover, we develop a blocking environment setting where the agent’s actions are filtered under some critical conditions. There, instead of the fully unconstrained learning environment, we observe the impact of a practical constraint that better guides the learning process away from the local maxima that we commonly experienced in practice. Our experimental evaluation shows the improvement that each of the above-mentioned enhancements for PPO provides under the single-agent lane-free environment. The results indicate the agent’s capacity to learn strategies that overcome solutions of inferior quality that were initially observed under the original formulation targeting other methods. Motivated by the results, we believe that the proposed enhancements can serve as groundwork in future endeavours for PPO and other methods for DRL in lane-free traffic.en
ΠερίληψηΗ κυκλοφορία χωρίς λωρίδες (lane-free traffic) είναι ένα νέο ερευνητικό πεδίο που εξετάζει περιβάλλοντα που αποτελούνται πλήρως από Συνδεδεμένα και Αυτοματοποιημένα Οχήματα (Connected and Automated Vehicles, CAV), όπου τα CAV δεν είναι περιορισμένα στις καθιερωμένες λωρίδες κυκλοφορίας αλλά μπορούν να μετακινηθούν σε οποιαδήποτε πλευρική θέση εντός των ορίων του δρόμου. Αυτό έχει αποτελέσει βάση για αρκετές ερευνητικές εργασίες και καινοτόμες εφαρμογές. Ταυτόχρονα, ο τομέας της Βαθιάς Ενισχυτικής Μάθησης (Deep Reinforcement Learning, DRL) εξελίσσεται με ταχείς ρυθμούς τα τελευταία χρόνια, αλλά και με αρκετά ενεργή έρευνα σε εφαρμογές πάνω στην αυτόνομη οδήγηση. Πιο συγκεκριμένα, ο Proximal Policy Optimization (PPO) είναι ένας on-policy αλγόριθμος που προτάθηκε πρόσφατα για DRL και θεωρείται ένας από τους πιο δημοφιλείς σε σύγχρονες εφαρμογές. Μέχρι στιγμής, οι υφιστάμενες προσεγγίσεις για DRL σε κυκλοφορία χωρίς λωρίδες έχουν εξετάσει άλλους αλγόριθμους που δεν σχετίζονται με τον PPO ή γενικότερα με αλγόριθμους on-policy. Για το σκοπό αυτό, βασιστήκαμε σε υπάρχουσα εργασία για DRL σε περιβάλλοντα χωρίς λωρίδες ενός πράκτορα (agent), όπου ένα CAV με τη μορφή ενός agent έχει ως στόχο να μάθει μια στρατηγική κίνησης οχημάτων χωρίς λωρίδες ενώ πλοηγείται σε έναν δρόμο αποτελούμενο από άλλα αυτόνομα CAV. Για να εφαρμόσουμε αποτελεσματικά τον PPO σε αυτό το περιβάλλον, επεκτείνουμε κατάλληλα με διαφορετικά νέα στοιχεία την υπάρχουσα μοντελοποίηση του προβλήματος ως μία Μαρκοβιανή Διαδικασία Λήψης Αποφάσεων (Markov Decision Process, MDP), και αξιολογούμε συστηματικά την επιρροή τους ως προς την επίδοση του μάθησης του πράκτορα. Αρχικά, προτείνουμε μια νέα αναπαράσταση της κατάστασης εισόδου με μορφή εικόνας της γειτονικής κυκλοφορίας που αποτυπώνει κατάλληλα τη δισδιάστατη κίνηση των CAV, και τη συγκρίνουμε με την υπάρχουσα κατάσταση εισόδου που έχει μορφή διανύσματος. Στη συνέχεια, σχηματίζουμε και εξετάζουμε διαφορετικούς όρους συνάρτησης ανταμοιβής που ταιριάζουν καλύτερα στον αλγόριθμο PPO. Επιπλέον, αναπτύσσουμε μια παραλλαγή του περιβάλλοντος όπου οι ενέργειες του πράκτορα φιλτράρονται κάτω από ορισμένες κρίσιμες συνθήκες. Εκεί, σε αντίθεση με το πλήρως ελεύθερο περιβάλλον μάθησης, βλέπουμε την επίδραση ενός πρακτικού περιορισμού που καθοδηγεί καλύτερα τη διαδικασία μάθησης μακριά από τα τοπικά μέγιστα που συνήθως αντιμετωπίζαμε στην πράξη. Η πειραματική μας αξιολόγηση δείχνει τη βελτίωση που παρέχει καθεμία από τις προαναφερθείσες βελτιώσεις για τον αλγόριθμο PPO στο περιβάλλον χωρίς λωρίδες ενός πράκτορα. Τα αποτελέσματα υποδεικνύουν την ικανότητα του πράκτορα να μαθαίνει πολιτικές που ξεπερνούν προηγούμενες λύσεις που παρατηρήθηκαν στην υφιστάμενη προσέγγιση που στόχευε σε άλλες μεθόδους. Δεδομένων των πειραματικών αποτελεσμάτων, θεωρούμε ότι οι προτεινόμενες βελτιώσεις μπορούν να χρησιμεύσουν ως βάση σε μελλοντικές εργασίες για τον PPO αλλά και σε άλλους αλγόριθμους για DRL σε κυκλοφορία χωρίς λωρίδες.el
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2024-12-17-
Ημερομηνία Δημοσίευσης2024-
Θεματική ΚατηγορίαMachine learningen
Θεματική ΚατηγορίαDeep reinforcement learningen
Θεματική ΚατηγορίαLane-Free trafficen
Θεματική ΚατηγορίαAutonomous drivingen
Βιβλιογραφική ΑναφοράGrigorios Akrivopoulos, "A systematic evaluation of the PPO algorithm for deep reinforcement learning in lane-free autonomous driving", Diploma Work, School of Production Engineering and Management, Technical University of Crete, Chania, Greece, 2024en
Βιβλιογραφική ΑναφοράΓρηγόριος Ακριβόπουλος, "Συστηματική αξιολόγηση του αλγόριθμου PPO για βαθιά ενισχυτική μάθηση σε αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας", Διπλωματική Εργασία, Σχολή Μηχανικών Παραγωγής και Διοίκησης, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά