Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Βελτιστοποίηση επιχειρησιακών ροών εργασίας μέσω αυτοματοποιημένης εξαγωγής πληροφορίας από αρχεία PDF με χρήση μεγάλων γλωσσικών μοντέλων

Athanasakis Evangelos

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/41B2DA98-184B-4743-AFF0-A322E48480F9-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.105015-
Γλώσσαen-
Μέγεθος86 pagesen
ΤίτλοςOptimization of enterprise workflows through automated information extraction from PDF files using large language modelsen
ΤίτλοςΒελτιστοποίηση επιχειρησιακών ροών εργασίας μέσω αυτοματοποιημένης εξαγωγής πληροφορίας από αρχεία PDF με χρήση μεγάλων γλωσσικών μοντέλων el
ΔημιουργόςAthanasakis Evangelosen
ΔημιουργόςΑθανασακης Ευαγγελοςel
Συντελεστής [Επιβλέπων Καθηγητής]Lagoudakis Michailen
Συντελεστής [Επιβλέπων Καθηγητής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Diakoloukas Vasileiosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Διακολουκας Βασιλειoςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Spyropoulos Thrasyvoulosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Σπυροπουλος Θρασυβουλοςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠεριγραφήΔιπλωματική Εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης πτυχίου.el
ΠερίληψηThe large volumes of files circulated in today’s enterprise workflows have prompted the development of methods based on Artificial Intelligence (AI) techniques for automated information extraction, retrieval, and summarization. In this diploma thesis, methods for processing and extracting data from semi-structured Portable Document Format (PDF) documents are studied and implemented using Large Language Models (LLMs). The project is divided into two distinct parts. In the first part, the study focuses on information retrieval from Greek soil analyses, which are characterized by their heterogeneous structure and formatting. Various text extraction techniques are examined, both from natively digital and scanned documents, using Optical Character Recognition (OCR). The contribution of individual sub-modules in the processing pipeline, such as post-processing for text extraction error correction and translation from Greek to English, is then investigated to the accuracy and efficiency of the overall structure. Various information retrieval techniques are then compared, including the full-context prompting approach and Retrieval-Augmented Generation (RAG), with the goal of evaluating the efficiency of each processing flow. In the second part, the methodology is generalized to be applicable to PDF documents from any domain. To this end, three agents are developed: The Field Detection Agent identifies candidate fields, the Post- Processing Agent filters and normalizes the results, and the Prompt Builder Agent dynamically constructs prompts for the information retrieval phase. Different architectures created by these agents are examined for extracting the names of fields that can be retrieved from the document. The efficiency and accuracy of the best information retrieval method from the first part is then re-evaluated, along with a variation of the full-context prompting approach. The proposed approach allows for automatic, adaptive, and efficient information extraction from a variety of texts. Overall, the thesis contributes to both the evaluation and improvement of different processing flows for data extraction from Greek soil analyses and the development of a general and scalable multi-agent architecture for any domain. The proposed framework can be applied to various fields, enhancing the automation and accuracy of information extraction from PDF files.en
ΠερίληψηΟι μεγάλοι όγκοι αρχείων που διακινούνται στις σύγχρονες επιχειρησιακές ροές έχουν ωθήσει την ανάπτυξη μεθόδων που βασίζονται σε τεχνικές Τεχνητής Νοημοσύνης για αυτοματοποιημένη εξαγωγή, ανάκτηση και σύνοψη πληροφοριών. Στην παρούσα διπλωματική εργασία μελετώνται και υλοποιούνται μέθοδοι επεξεργασίας και εξαγωγής δεδομένων από ημιδομημένα έγγραφα PDF με χρήση Μεγάλων Γλωσσικών Μοντέλων (Large Language Modelds - llm). Η εργασία αναπτύσσεται σε δύο διακριτά μέρη. Στο πρώτο μέρος, το πεδίο μελέτης επικεντρώνεται στην ανάκτηση πληροφοριών από αναλύσεις Ελληνικών εδαφών, οι οποίες χαρακτηρίζονται από ετερογένεια στη δομή και τη μορφοποίησή τους. Εξετάζονται διάφορες τεχνικές εξαγωγής κειμένου, τόσο από εγγενώς ψηφιακά, όσο και από σκαναρισμένα, έγγραφα με χρήση Οπτικής Αναγνώρισης Χαρακτήρων (Optical Character Recognition - OCR). Στην συνέχεια, εξετάζεται η συνεισφορά επιμέρους υπομονάδων της ροής επεξεργασίας, όπως post-processing για διόρθωση λαθών κατά την εξαγωγή του κειμένου και μετάφραση από Ελληνικά σε Αγγλικά, στην ακρίβεια και την αποδοτικότητα της συνολικής δομής. Στη συνέχεια, συγκρίνονται διάφορες τεχνικές ανάκτησης πληροφορίας, όπως η προσέγγιση πλήρων συμφραζομένων (full-context prompting) και η Ανάκτηση Υποβοηθούμενη από Γνώση (Retrieval-Augmented Generation – RAG), με στόχο την αξιολόγηση της αποδοτικότητας κάθε ροής επεξεργασίας. Στο δεύτερο μέρος, η μεθοδολογία γενικεύεται, ώστε να μπορεί να εφαρμοστεί σε έγγραφα PDF από κάθε πεδίο εφαρμογής. Για τον σκοπό αυτό αναπτύσσονται τρείς πράκτορες (agents): Ο Πράκτορας Ανίχνευσης Πεδίων εντοπίζει υποψήφια πεδία, ο Πράκτορας Μετα-επεξεργασίας φιλτράρει και κανονικοποιεί τα αποτελέσματα, ενώ ο Πράκτορας Δημιουργίας Prompts κατασκευάζει δυναμικά prompts για τη φάση ανάκτησης πληροφορίας. Εξετάζονται διαφορετικές αρχιτεκτονικές που δημιουργούνται από αυτούς τους πράκτορες για την εξαγωγή των ονομάτων των πεδίων που μπορούν να ανακτηθούν από το έγγραφο. Στην συνέχεια, αξιολογείται εκ νέου η αποδοτικότητα της καλύτερης μεθόδου ανάκτησης πληροφορίας που προέκυψε από το πρώτο μέρος, καθώς και παραλλαγές της προσέγγισης πλήρων συμφραζομένων. H προτεινόμενη προσέγγιση επιτρέπει την αυτόματη, προσαρμοστική και αποδοτική εξαγωγή πληροφορίας από ποικίλα κείμενα προερχόμενα από διαφορετικούς τομείς. Συνολικά, η εργασία συμβάλλει τόσο στην αξιολόγηση και βελτίωση διαφορετικών ροών επεξεργασίας για την εξαγωγή δεδομένων από αναλύσεις Ελληνικών εδαφών, όσο και στην ανάπτυξη μίας γενικής και επεκτάσιμης σε κάθε τομέα, πολυπρακτορικής αρχιτεκτονικής. Η προτεινόμενη υποδομή μπορεί να εφαρμοστεί σε ποικίλα πεδία εφαρμογής, ενισχύοντας την αυτοματοποίηση και την ακρίβεια στην εξαγωγή πληροφοριών από αρχεία PDF. el
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2025-10-09-
Ημερομηνία Δημοσίευσης2025-
Θεματική ΚατηγορίαLarge Language Modelsen
Βιβλιογραφική ΑναφοράEvangelos Athanasakis, "Optimization of enterprise workflows through automated information extraction from PDF files using large language models", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025en
Βιβλιογραφική ΑναφοράΕυάγγελος Αθανασάκης, "Βελτιστοποίηση επιχειρησιακών ροών εργασίας μέσω αυτοματοποιημένης εξαγωγής πληροφορίας από αρχεία PDF με χρήση μεγάλων γλωσσικών μοντέλων ", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά