Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Production line control using deep reinforcement learning techniques

Pantazis Georgios

Simple record


URIhttp://purl.tuc.gr/dl/dias/C88A6B81-26B8-4AB5-94F0-671ABCE7C128-
Identifierhttps://doi.org/10.26233/heallink.tuc.103797-
Languageen-
Extent108 pagesen
TitleProduction line control using deep reinforcement learning techniques en
TitleΈλεγχος γραμμών παραγωγής με χρήση τεχνικών βαθιάς ενισχυτικής μάθησηςel
CreatorPantazis Georgiosen
CreatorΠανταζης Γεωργιοςel
Contributor [Thesis Supervisor]Lagoudakis Michailen
Contributor [Thesis Supervisor]Λαγουδακης Μιχαηλel
Contributor [Committee Member]Spyropoulos Thrasyvoulosen
Contributor [Committee Member]Σπυροπουλος Θρασυβουλοςel
Contributor [Committee Member]Ioannidis Efstratiosen
Contributor [Committee Member]Ιωαννιδης Ευστρατιοςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
Content SummaryModern production lines are facing challenges, when it comes to maintaining efficiency. These challenges are due to various reasons, including unpredictable machine failures, fluctuating demand, and buffer congestion. These issues result in increased costs and delays, that traditional scheduling methods struggle to handle. As manufacturing systems become more complex, there is a growing need for adaptive control strategies that can optimize production in real-time. In this diploma thesis, we present a deep reinforcement learning approach to optimizing production line control, leveraging SimEvents in Simulink and the Matlab Reinforcement Learning Toolbox. The production system consists of sequential machine stages, buffers, and an assembly mechanism, where inefficiencies, such as buffer congestion and machine downtime, lead to increased operational costs. A Proximal Policy Optimization (PPO)-based reinforcement learning agent was designed to handle machine operations by monitoring key system variables, including buffer levels and machine states. The agent is designed to minimize delays and prevent buffer accumulation, enabling it to learn adaptive scheduling policies that improve overall efficiency and minimize cost. Through a series of simulations, our approach proves to be more effective than traditional optimization methods and yields solutions very close to optimal solutions, which can be obtained for small problem instances by dynamic programming methods. The results of extensive experimental testing show that reinforcement learning successfully improves manufacturing efficiency through better decision-making, pointing to new ways of running production systems.en
Content SummaryΟι σύγχρονες γραμμές παραγωγής αντιμετωπίζουν προκλήσεις, όσον αφορά στη διατήρηση της αποδοτικότητας. Αυτές οι προκλήσεις οφείλονται σε διάφορους λόγους, όπως οι απρόβλεπτες βλάβες μηχανών, οι διακυμάνσεις της ζήτησης και η συμφόρηση των ενδιάμεσων αποθεμάτων. Αυτά τα ζητήματα οδηγούν σε αυξημένο κόστος και καθυστερήσεις, τα οποία οι παραδοσιακές μέθοδοι χρονοπρογραμματισμού δυσκολεύονται να διαχειριστούν. Καθώς τα συστήματα παραγωγής γίνονται ολοένα και πιο περίπλοκα, υπάρχει αυξανόμενη ανάγκη για προσαρμοστικές στρατηγικές ελέγχου που μπορούν να βελτιστοποιούν την παραγωγή σε πραγματικό χρόνο. Στην παρούσα διπλωματική εργασία, παρουσιάζουμε μια προσέγγιση βαθιάς ενισχυτικής μάθησης για τη βελτιστοποίηση του ελέγχου γραμμών παραγωγής, αξιοποιώντας το SimEvents στο Simulink και το Matlab Reinforcement Learning Toolbox. Το σύστημα παραγωγής αποτελείται από διαδοχικές μηχανές, ενδιάμεσους χώρους αποθεμάτων και έναν μηχανισμό συναρμολόγησης, όπου οι αναποτελεσματικότητες, όπως η συμφόρηση των αποθεμάτων και ο χρόνος αδράνειας των μηχανών, οδηγούν σε αυξημένο λειτουργικό κόστος. Σχεδιάστηκε ένας πράκτορας ενισχυτικής μάθησης, βασισμένος στον αλγόριθμο Proximal Policy Optimization (PPO), ο οποίος διαχειρίζεται τη λειτουργία των μηχανών, παρακολουθώντας βασικές μεταβλητές του συστήματος, όπως τα επίπεδα των ενδιάμεσων αποθεμάτων και τις καταστάσεις των μηχανών. Ο πράκτορας έχει σχεδιαστεί για να ελαχιστοποιεί τις καθυστερήσεις και να αποτρέπει τη συσσώρευση αποθεμάτων, επιτρέποντάς του να μαθαίνει προσαρμοστικές πολιτικές χρονοπρογραμματισμού που βελτιώνουν τη συνολική απόδοση και μειώνουν το κόστος. Μέσα από μια σειρά προσομοιώσεων, η προτεινόμενη προσέγγιση αποδεικνύεται πιο αποτελεσματική από τις παραδοσιακές μεθόδους βελτιστοποίησης και αποδίδει λύσεις πολύ κοντά σε βέλτιστες λύσεις, οι οποίες μπορούν να επιτευχθούν για μικρά στιγμιότυπα του προβλήματος μέσω μεθόδων δυναμικού προγραμματισμού. Τα αποτελέσματα εκτεταμένων πειραματικών δοκιμών δείχνουν ότι η ενισχυτική μάθηση βελτιώνει επιτυχώς την αποδοτικότητα της παραγωγής μέσω καλύτερης λήψης αποφάσεων, υποδεικνύοντας νέους τρόπους διαχείρισης των συστημάτων παραγωγής.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2025-07-10-
Date of Publication2025-
SubjectΒαθιά ενισχυτική μάθησηel
SubjectΒιομηχανική παραγωγήel
SubjectSimulinken
SubjectΈλεγχος γραμμής παραγωγήςel
SubjectDeep reinforcement learningen
SubjectIndustrial productionen
SubjectProduction line controlen
Bibliographic CitationGeorgios Pantazis, "Production line control using deep reinforcement learning techniques", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025en
Bibliographic CitationΓεώργιος Πανταζής, "Έλεγχος γραμμών παραγωγής με χρήση τεχνικών βαθιάς ενισχυτικής μάθησης", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025el

Available Files

Services

Statistics