Η βελτιστοποίηση των γραμμών παραγωγής είναι ένα μείζον ζήτημα στον τομέα της βιομηχανίας. Νέες αναδυόμενες τεχνολογίες όπως η Ενισχυτική Μάθηση (Reinforcement Learning, RL) επιτρέπουν την εφαρμογή νέων προσεγγίσεων στο πρόβλημα του βέλτιστου ελέγχου της παραγωγής σε όλους του τους τομείς, περιλαμβανομένου του προγραμματισμού παραγωγής, της διαχείρισης εργασιών συντήρησης και ασφάλειας, της εφοδιαστικής αλυσίδας κλπ. Η υπάρχουσα έρευνα σε αυτό το πεδίο εστιάζει στην εκπαίδευση πρακτόρων σε περιβάλλοντα προσομοιώσεων που μιμούνται τη συμπεριφορά υπαρκτών συστημάτων παραγωγής. Σε αυτή την εργασία, αναπτύχθηκε μια απλή γραμμή παραγωγής με 2 μηχανές, ενδιάμεσες αποθηκευτικές μονάδες και ουρά αναμονής πελατών, στην οποία εφαρμόστηκε ένας πράκτορας Ενισχυτικής Μάθησης σαν κύριος ελεγκτής που χρησιμοποιεί τη μέθοδο Βελτιστοποίησης Πλησιέστερης Πολιτικής (Proximal Policy Optimization, PPO). Αυτός ο πράκτορας έπειτα εκπαιδεύεται σε διαφορετικά σενάρια που προσομοιώνουν μεταβολές στις περιβαλλοντικές παραμέτρους, όπως αυξημένη ζήτηση προϊόντων ή κόστους παραγωγής. Παρ’όλο που η εκπαίδευση γίνεται σε μικρότερη κλίμακα από μια πραγματική βιομηχανία, η διαδικασία έδειξε αποτελεσματικό έλεγχο των μηχανών της γραμμής παραγωγής και, σε κάποιους από τους πράκτορες, αντοχή στις συνθήκες των πιο απαιτητικών σεναρίων. Αυτά τα ευρήματα ενδέχεται να βοηθήσουν στη μελλοντική ανάπτυξη πρακτόρων Ενισχυτικής Μάθησης για χρήση στον βιομηχανικό έλεγχο και να δείξουν το δρόμο για την αντιμετώπιση πιο προκλητικών ζητημάτων.