Το έργο με τίτλο Συστηματική αξιολόγηση του αλγόριθμου PPO για βαθιά ενισχυτική μάθηση σε αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας από τον/τους δημιουργό/ούς Akrivopoulos Grigorios διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Γρηγόριος Ακριβόπουλος, "Συστηματική αξιολόγηση του αλγόριθμου PPO για βαθιά ενισχυτική μάθηση σε αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας", Διπλωματική Εργασία, Σχολή Μηχανικών Παραγωγής και Διοίκησης, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024
https://doi.org/10.26233/heallink.tuc.101775
Η κυκλοφορία χωρίς λωρίδες (lane-free traffic) είναι ένα νέο ερευνητικό πεδίο που εξετάζει περιβάλλοντα που αποτελούνται πλήρως από Συνδεδεμένα και Αυτοματοποιημένα Οχήματα (Connected and Automated Vehicles, CAV), όπου τα CAV δεν είναι περιορισμένα στις καθιερωμένες λωρίδες κυκλοφορίας αλλά μπορούν να μετακινηθούν σε οποιαδήποτε πλευρική θέση εντός των ορίων του δρόμου. Αυτό έχει αποτελέσει βάση για αρκετές ερευνητικές εργασίες και καινοτόμες εφαρμογές. Ταυτόχρονα, ο τομέας της Βαθιάς Ενισχυτικής Μάθησης (Deep Reinforcement Learning, DRL) εξελίσσεται με ταχείς ρυθμούς τα τελευταία χρόνια, αλλά και με αρκετά ενεργή έρευνα σε εφαρμογές πάνω στην αυτόνομη οδήγηση. Πιο συγκεκριμένα, ο Proximal Policy Optimization (PPO) είναι ένας on-policy αλγόριθμος που προτάθηκε πρόσφατα για DRL και θεωρείται ένας από τους πιο δημοφιλείς σε σύγχρονες εφαρμογές. Μέχρι στιγμής, οι υφιστάμενες προσεγγίσεις για DRL σε κυκλοφορία χωρίς λωρίδες έχουν εξετάσει άλλους αλγόριθμους που δεν σχετίζονται με τον PPO ή γενικότερα με αλγόριθμους on-policy.Για το σκοπό αυτό, βασιστήκαμε σε υπάρχουσα εργασία για DRL σε περιβάλλοντα χωρίς λωρίδες ενός πράκτορα (agent), όπου ένα CAV με τη μορφή ενός agent έχει ως στόχο να μάθει μια στρατηγική κίνησης οχημάτων χωρίς λωρίδες ενώ πλοηγείται σε έναν δρόμο αποτελούμενο από άλλα αυτόνομα CAV. Για να εφαρμόσουμε αποτελεσματικά τον PPO σε αυτό το περιβάλλον, επεκτείνουμε κατάλληλα με διαφορετικά νέα στοιχεία την υπάρχουσα μοντελοποίηση του προβλήματος ως μία Μαρκοβιανή Διαδικασία Λήψης Αποφάσεων (Markov Decision Process, MDP), και αξιολογούμε συστηματικά την επιρροή τους ως προς την επίδοση του μάθησης του πράκτορα. Αρχικά, προτείνουμε μια νέα αναπαράσταση της κατάστασης εισόδου με μορφή εικόνας της γειτονικής κυκλοφορίας που αποτυπώνει κατάλληλα τη δισδιάστατη κίνηση των CAV, και τη συγκρίνουμε με την υπάρχουσα κατάσταση εισόδου που έχει μορφή διανύσματος. Στη συνέχεια, σχηματίζουμε και εξετάζουμε διαφορετικούς όρους συνάρτησης ανταμοιβής που ταιριάζουν καλύτερα στον αλγόριθμο PPO. Επιπλέον, αναπτύσσουμε μια παραλλαγή του περιβάλλοντος όπου οι ενέργειες του πράκτορα φιλτράρονται κάτω από ορισμένες κρίσιμες συνθήκες. Εκεί, σε αντίθεση με το πλήρως ελεύθερο περιβάλλον μάθησης, βλέπουμε την επίδραση ενός πρακτικού περιορισμού που καθοδηγεί καλύτερα τη διαδικασία μάθησης μακριά από τα τοπικά μέγιστα που συνήθως αντιμετωπίζαμε στην πράξη.Η πειραματική μας αξιολόγηση δείχνει τη βελτίωση που παρέχει καθεμία από τις προαναφερθείσες βελτιώσεις για τον αλγόριθμο PPO στο περιβάλλον χωρίς λωρίδες ενός πράκτορα. Τα αποτελέσματα υποδεικνύουν την ικανότητα του πράκτορα να μαθαίνει πολιτικές που ξεπερνούν προηγούμενες λύσεις που παρατηρήθηκαν στην υφιστάμενη προσέγγιση που στόχευε σε άλλες μεθόδους. Δεδομένων των πειραματικών αποτελεσμάτων, θεωρούμε ότι οι προτεινόμενες βελτιώσεις μπορούν να χρησιμεύσουν ως βάση σε μελλοντικές εργασίες για τον PPO αλλά και σε άλλους αλγόριθμους για DRL σε κυκλοφορία χωρίς λωρίδες.