Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Reinforcement learning for autonomous unmanned aerial vehicles

Geramanis Nikolaos

Simple record


URIhttp://purl.tuc.gr/dl/dias/EEF7B227-2A2B-4BB0-8ED1-579574DE4D69-
Identifierhttps://doi.org/10.26233/heallink.tuc.87066-
Languageen-
Extent2.2 megabytesen
Extent67 pagesen
TitleReinforcement learning for autonomous unmanned aerial vehicles en
TitleΕνισχυτική μάθηση για αυτόνομα μη-επανδρωμένα ιπτάμενα οχήματα el
CreatorGeramanis Nikolaosen
CreatorΓεραμανης Νικολαοςel
Contributor [Committee Member]Partsinevelos Panagiotisen
Contributor [Committee Member]Παρτσινεβελος Παναγιωτηςel
Contributor [Thesis Supervisor]Lagoudakis Michailen
Contributor [Thesis Supervisor]Λαγουδακης Μιχαηλel
Contributor [Committee Member]Bletsas Aggelosen
Contributor [Committee Member]Μπλετσας Αγγελοςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
DescriptionΔιπλωματική Εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης του Διπλώματος.el
Content SummaryReinforcement learning is an area of machine learning concerned with how autonomous agents learn to behave in unknown environments through trial-and-error. The goal of a reinforcement learning agent is to learn a sequential decision policy that maximizes the notion of cumulative reward through continuous interaction with the unknown environment. A challenging problem in robotics is the autonomous navigation of an Unmanned Aerial Vehicle (UAV) in worlds with no available map. This ability is critical in many applications, such as search and rescue operations or the mapping of geographical areas. In this thesis, we present a map-less approach for the autonomous, safe navigation of a UAV in unknown environments using reinforcement learning. Specifically, we implemented two popular algorithms, SARSA(λ) and Least-Squares Policy Iteration (LSPI), and combined them with tile coding, a parametric, linear approximation architecture for value function in order to deal with the 5- or 3-dimensional continuous state space defined by the measurements of the UAV distance sensors. The final policy of each algorithm, learned over only 500 episodes, was tested in unknown environments more complex than the one used for training in order to evaluate the behavior of each policy. Results show that SARSA(λ) was able to learn a near-optimal policy that performed adequately even in unknown situations, leading the UAV along paths free-of-collisions with obstacles. LSPI's policy required less learning time and its performance was promising, but not as effective, as it occasionally leads to collisions in unknown situations. The whole project was implemented using the Robot Operating System (ROS) framework and the Gazebo robot simulation environment.en
Content SummaryΗ ενισχυτική μάθηση είναι ένας τομέας της μηχανικής μάθησης που ασχολείται με το πως οι αυτόνομοι πράκτορες μαθαίνουν να συμπεριφέρονται σε άγνωστα περιβάλλοντα μέσω μιας διαδικασίας δοκιμής και σφάλματος. Ο στόχος ενός πράκτορα ενισχυτικής μάθησης είναι να μάθει μια πολιτική ακολουθιακής λήψης αποφάσεων, η οποία μεγιστοποιεί την έννοια της αθροιστικής αμοιβής, μέσα από συνεχή αλληλεπίδραση με το άγνωστο περιβάλλον. Ένα απαιτητικό πρόβλημα στη ρομποτική είναι η αυτόνομη πλοήγηση ενός μη-επανδρωμένου ιπτάμενου οχήματος (Unmanned Aerial Vehicle – UAV) σε κόσμους χωρίς διαθέσιμο χάρτη. Αυτή η ικανότητα είναι κρίσιμη σε διάφορες εφαρμογές, όπως αποστολές έρευνας και διάσωσης και χαρτογράφηση γεωγραφικών περιοχών. Η παρούσα διπλωματική εργασία παρουσιάζει μια προσέγγιση για την αυτόνομη, ασφαλή πλοήγηση ενός UAV χωρίς χρήση χάρτη, σε άγνωστα περιβάλλοντα χρησιμοποιώντας ενισχυτική μάθηση. Πιο συγκεκριμένα, υλοποιήσαμε δύο γνωστούς αλγορίθμους, τον SARSA(λ) και τον Least-Squares Policy Iteration (LSPI), και τους συνδυάσαμε με την τεχνική tile coding, μια παραμετρική, γραμμική αρχιτεκτονική προσέγγισης της συνάρτησης τιμής με σκοπό να αντιμετωπίσουμε τον 5- ή 3-διάστατο συνεχή χώρο καταστάσεων που ορίζεται από τις μετρήσεις των αισθητήρων απόστασης του UAV. Η τελική πολιτική κάθε αλγορίθμου, μετά από μάθηση σε 500 επεισόδια, δοκιμάστηκε και σε άγνωστα περιβάλλοντα πιο πολύπλοκα από αυτό της εκπαίδευσης με σκοπό να αξιολογηθεί η συμπεριφορά κάθε πολιτικής. Τα αποτελέσματα δείχνουν πως ο SARSA(λ) ήταν ικανός να μάθει μια σχεδόν-βέλτιστη συμπεριφορά, η οποία απέδωσε ικανοποιητικά ακόμη και στις άγνωστες συνθήκες, οδηγώντας το UAV σε διαδρομές χωρίς συγκρούσεις με εμπόδια. Η πολιτική του LSPI απαίτησε λιγότερο χρόνο μάθησης και η απόδοσή της έδειξε καλές προοπτικές, δεν ήταν όμως τόσο αποτελεσματική, καθώς σε κάποιες περιπτώσεις οδήγησε σε συγκρούσεις στις άγνωστες συνθήκες. Η εργασία στο σύνολό της έχει υλοποιηθεί χρησιμοποιώντας το Robot Operating System (ROS) και το περιβάλλον ρομποτικής προσομοίωσης Gazebo.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2020-10-15-
Date of Publication2020-
SubjectΕνισχυτική Μάθησηel
SubjectReinforcement Learningen
SubjectΜη-Επανδρωμένα Ιπτάμενα Οχήματαel
SubjectUnmanned Aerial Vehicles – UAVsen
Bibliographic CitationNikolaos Geramanis, "Reinforcement learning for autonomous unmanned aerial vehicles", Diploma Work, School of Electrical and Computer Engineering, Technical Univesity of Crete, Chania, Greece, 2020el
Bibliographic CitationΝικόλαος Γεραμάνης, "Ενισχυτική μάθηση για αυτόνομα μη-επανδρωμένα ιπτάμενα οχήματα", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2020el

Available Files

Services

Statistics