Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Οπτική αναγνώριση κειμένου σε εικόνες για ερωταπαντήσεις με χρήση βαθιάς μάθησης

Vlachos Konstantinos

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/CCD4EDF5-7A8E-4B87-83AD-394B19281B26
Έτος 2024
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Κωνσταντίνος Βλάχος, "Οπτική αναγνώριση κειμένου σε εικόνες για ερωταπαντήσεις με χρήση βαθιάς μάθησης", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024 https://doi.org/10.26233/heallink.tuc.100599
Εμφανίζεται στις Συλλογές

Περίληψη

Η Απάντηση Ερωτήσεων μέσω Οπτικών Δεδομένων (Visual Question Answering, VQA) είναι μια σύνθετη πρόκληση που συνδυάζει τους τομείς της Υπολογιστικής Όρασης και της Επεξεργασίας Φυσικής Γλώσσας. Η βασική ιδέα πίσω από το VQA είναι να μπορεί να απαντά κανείς αυτόματα σε ερωτήσεις, που παρέχονται με τη μορφή κειμένου φυσικής γλώσσας, σχετικά με το περιεχόμενο μιας ψηφιακής έγχρωμης εικόνας, που παρέχεται επίσης ως μέρος της εισόδου. Η απάντηση πρέπει να παραδοθεί επίσης στην ίδια μορφή κειμένου φυσικής γλώσσας. Η παρούσα διπλωματική εργασία διερευνά την ανάπτυξη ενός μοντέλου VQA, αξιοποιώντας υπάρχοντα συστήματα, εκπαιδευμένα σε εκατομμύρια δεδομένα χρησιμοποιώντας τεχνικές βαθιάς μηχανικής μάθησης. Πιο συγκεκριμένα, τα δύο συστήματα που αξιοποιήθηκαν είναι: το EfficientNetB0 ως εργαλείο εξαγωγής χαρακτηριστικών εικόνας και το BERT για την ενσωμάτωση ερωτήσεων. Οι χάρτες χαρακτηριστικών που παράγονται από αυτά τα δύο στοιχεία συνενώνονται και στη συνέχεια τροφοδοτούνται σε μια συνελικτική αρχιτεκτονική νευρωνικού δικτύου με δύο πυκνά στρώματα, τα οποία είναι υπεύθυνα για την πραγματοποίηση προβλέψεων. Ο στόχος της αρχιτεκτονικής αυτού του μοντέλου είναι να ταξινομήσει σωστά τις εισόδους, που αποτελούνται από μια ερώτηση και μια εικόνα, σε απαντήσεις που επιλέγονται από ένα προκαθορισμένο σύνολο 500 πιθανών επιλογών. Η εκπαίδευση του μοντέλου περιελάμβανε κατάλληλη χρήση των Pro GPUs του Colab, καθώς και πειραματισμό με διάφορες διαμορφώσεις για τη βελτιστοποίηση της απόδοσης και την εφαρμογή μιας σειράς από callbacks για τη βελτίωση της σταθερότητας της εκπαίδευσης. Το μοντέλο που προέκυψε επέδειξε καλή απόδοση σε πολλές περιπτώσεις, αναγνωρίζοντας αντικείμενα με ακρίβεια, κατανοώντας σκηνές και εκτελώντας χωροταξικούς συλλογισμούς για να απαντάει σε ερωτήσεις σχετικές με την εικόνα εισόδου. Αυτά τα αποτελέσματα παρουσιάζονται μέσω μια σειράς σωστών και λανθασμένων προβλεπόμενων απαντήσεων σε επιλεγμένες περιπτώσεις. Τέλος, συζητούνται εκτενώς περιορισμοί, μελλοντικές επεκτάσεις και πιθανές εφαρμογές της προτεινόμενης προσέγγισης.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά