URI | http://purl.tuc.gr/dl/dias/C88A6B81-26B8-4AB5-94F0-671ABCE7C128 | - |
Identifier | https://doi.org/10.26233/heallink.tuc.103797 | - |
Language | en | - |
Extent | 108 pages | en |
Title | Production line control using deep reinforcement learning techniques
| en |
Title | Έλεγχος γραμμών παραγωγής με χρήση τεχνικών βαθιάς ενισχυτικής μάθησης | el |
Creator | Pantazis Georgios | en |
Creator | Πανταζης Γεωργιος | el |
Contributor [Thesis Supervisor] | Lagoudakis Michail | en |
Contributor [Thesis Supervisor] | Λαγουδακης Μιχαηλ | el |
Contributor [Committee Member] | Spyropoulos Thrasyvoulos | en |
Contributor [Committee Member] | Σπυροπουλος Θρασυβουλος | el |
Contributor [Committee Member] | Ioannidis Efstratios | en |
Contributor [Committee Member] | Ιωαννιδης Ευστρατιος | el |
Publisher | Πολυτεχνείο Κρήτης | el |
Publisher | Technical University of Crete | en |
Academic Unit | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Content Summary | Modern production lines are facing challenges, when it comes to maintaining efficiency. These challenges are due to various reasons, including unpredictable machine failures, fluctuating demand, and buffer congestion. These issues result in increased costs and delays, that traditional scheduling methods struggle to handle. As manufacturing systems become more complex, there is a growing need for adaptive control strategies that can optimize production in real-time. In this diploma thesis, we present a deep reinforcement learning approach to optimizing production line control, leveraging SimEvents in Simulink and the Matlab Reinforcement Learning Toolbox. The production system consists of sequential machine stages, buffers, and an assembly mechanism, where inefficiencies, such as buffer congestion and machine downtime, lead to increased operational costs. A Proximal Policy Optimization (PPO)-based reinforcement learning agent was designed to handle machine operations by monitoring key system variables, including buffer levels and machine states. The agent is designed to minimize delays and prevent buffer accumulation, enabling it to learn adaptive scheduling policies that improve overall efficiency and minimize cost. Through a series of simulations, our approach proves to be more effective than traditional optimization methods and yields solutions very close to optimal solutions, which can be obtained for small problem instances by dynamic programming methods. The results of extensive experimental testing show that reinforcement learning successfully improves manufacturing efficiency through better decision-making, pointing to new ways of running production systems. | en |
Content Summary | Οι σύγχρονες γραμμές παραγωγής αντιμετωπίζουν προκλήσεις, όσον αφορά στη διατήρηση της αποδοτικότητας. Αυτές οι προκλήσεις οφείλονται σε διάφορους λόγους, όπως οι απρόβλεπτες βλάβες μηχανών, οι διακυμάνσεις της ζήτησης και η συμφόρηση των ενδιάμεσων αποθεμάτων. Αυτά τα ζητήματα οδηγούν σε αυξημένο κόστος και καθυστερήσεις, τα οποία οι παραδοσιακές μέθοδοι χρονοπρογραμματισμού δυσκολεύονται να διαχειριστούν. Καθώς τα συστήματα παραγωγής γίνονται ολοένα και πιο περίπλοκα, υπάρχει αυξανόμενη ανάγκη για προσαρμοστικές στρατηγικές ελέγχου που μπορούν να βελτιστοποιούν την παραγωγή σε πραγματικό χρόνο. Στην παρούσα διπλωματική εργασία, παρουσιάζουμε μια προσέγγιση βαθιάς ενισχυτικής μάθησης για τη βελτιστοποίηση του ελέγχου γραμμών παραγωγής, αξιοποιώντας το SimEvents στο Simulink και το Matlab Reinforcement Learning Toolbox. Το σύστημα παραγωγής αποτελείται από διαδοχικές μηχανές, ενδιάμεσους χώρους αποθεμάτων και έναν μηχανισμό συναρμολόγησης, όπου οι αναποτελεσματικότητες, όπως η συμφόρηση των αποθεμάτων και ο χρόνος αδράνειας των μηχανών, οδηγούν σε αυξημένο λειτουργικό κόστος. Σχεδιάστηκε ένας πράκτορας ενισχυτικής μάθησης, βασισμένος στον αλγόριθμο Proximal Policy Optimization (PPO), ο οποίος διαχειρίζεται τη λειτουργία των μηχανών, παρακολουθώντας βασικές μεταβλητές του συστήματος, όπως τα επίπεδα των ενδιάμεσων αποθεμάτων και τις καταστάσεις των μηχανών. Ο πράκτορας έχει σχεδιαστεί για να ελαχιστοποιεί τις καθυστερήσεις και να αποτρέπει τη συσσώρευση αποθεμάτων, επιτρέποντάς του να μαθαίνει προσαρμοστικές πολιτικές χρονοπρογραμματισμού που βελτιώνουν τη συνολική απόδοση και μειώνουν το κόστος. Μέσα από μια σειρά προσομοιώσεων, η προτεινόμενη προσέγγιση αποδεικνύεται πιο αποτελεσματική από τις παραδοσιακές μεθόδους βελτιστοποίησης και αποδίδει λύσεις πολύ κοντά σε βέλτιστες λύσεις, οι οποίες μπορούν να επιτευχθούν για μικρά στιγμιότυπα του προβλήματος μέσω μεθόδων δυναμικού προγραμματισμού. Τα αποτελέσματα εκτεταμένων πειραματικών δοκιμών δείχνουν ότι η ενισχυτική μάθηση βελτιώνει επιτυχώς την αποδοτικότητα της παραγωγής μέσω καλύτερης λήψης αποφάσεων, υποδεικνύοντας νέους τρόπους διαχείρισης των συστημάτων παραγωγής. | el |
Type of Item | Διπλωματική Εργασία | el |
Type of Item | Diploma Work | en |
License | http://creativecommons.org/licenses/by/4.0/ | en |
Date of Item | 2025-07-10 | - |
Date of Publication | 2025 | - |
Subject | Βαθιά ενισχυτική μάθηση | el |
Subject | Βιομηχανική παραγωγή | el |
Subject | Simulink | en |
Subject | Έλεγχος γραμμής παραγωγής | el |
Subject | Deep reinforcement learning | en |
Subject | Industrial production | en |
Subject | Production line control | en |
Bibliographic Citation | Georgios Pantazis, "Production line control using deep reinforcement learning techniques", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025 | en |
Bibliographic Citation | Γεώργιος Πανταζής, "Έλεγχος γραμμών παραγωγής με χρήση τεχνικών βαθιάς ενισχυτικής μάθησης", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025 | el |