Exploring efficiency and performance of image captioning

Frechat Nantia-Efthymia

URI	http://purl.tuc.gr/dl/dias/8C58FB2B-27F0-4FDF-B00F-15346E1477C1	-
Identifier	https://doi.org/10.26233/heallink.tuc.83634	-
Language	en	-
Extent	79 pages	en
Title	Exploring efficiency and performance of image captioning	en
Title	Διερευνώντας την αποτελεσματικότητα και την απόδοση του υποτιτλισμού εικόνας	el
Creator	Frechat Nantia-Efthymia	en
Creator	Φρεχατ Ναντια-Ευθυμια	el
Contributor [Thesis Supervisor]	Lagoudakis Michail	en
Contributor [Thesis Supervisor]	Λαγουδακης Μιχαηλ	el
Contributor [Committee Member]	Pnevmatikatos Dionysios	en
Contributor [Committee Member]	Πνευματικατος Διονυσιος	el
Contributor [Committee Member]	Zervakis Michail	en
Contributor [Committee Member]	Ζερβακης Μιχαηλ	el
Publisher	Πολυτεχνείο Κρήτης	el
Publisher	Technical University of Crete	en
Academic Unit	Technical University of Crete::School of Electrical and Computer Engineering	en
Academic Unit	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Content Summary	Ο υποτιτλισμός εικόνας είναι ένα πολύπλοκο πρόβλημα που συνδυάζει τον τομέα της μηχανικής όρασης και της επεξεργασίας φυσικής γλώσσας. Στοχευει στην παραγωγή προτάσεων σε φυσική γλώσσα που περιγράφουν το περιεχόμενο κάποιας εικόνας. Ο υποτιτλισμός εικόνας έχει αρκετές εφαρμογές στον πραγματικό κόσμο με σημαντικό πρακτικό αντίκτυπο, από την παροχή βοήθειας σε χρήστες με προβλήματα όρασης έως προσωπικούς βοηθούς μέσω της αλληλεπίδρασης ανθρώπου-ρομπότ. Η πρόοδος στον υποτιτλισμό εικόνας είναι μια σημαντική επιτυχία της Τεχνητής Νοημοσύνης. Έχει αναφερθεί ότι υπο ορισμένες μετρικές, όπως το BLUE ή το CIDEr, οι πιο σύγχρονες τεχνικές ξεπερνούν ακόμα και τις ανθρώπινες επιδόσεις. Σε αυτή τη διπλωματική εργασία, υλοποιούμε και παρουσιάζουμε ένα μοντέλο βασισμένο σε τεχνικές μηχανικής μάθησης που συνδυάζει τις πιο σύγχρονες εξελίξεις στην μηχανική όραση και τη μηχανική μετάφραση και που μπορεί να χρησιμοποιηθεί για τη δημιουργία φυσικών προτασεων που περιγράφουν μια εικόνα. Συγκεκριμένα, χρησιμοποιήθηκε ένας συνδυασμός συνελικτικών νευρωνικών δικτύων μαζί με ανατροφοδούμενα νευρωνικά δίκτυα για την απόκτηση των επιθυμητών αποτελέσματων. Τα μοντέλα εκπαιδεύτηκαν έτσι ώστε να μεγιστοποιούν την πιθανότητα περιγραφής στόχου δεδομένης της εικόνας εκπαίδευσης. Πειράματα σε ένα πολύ μεγάλο σύνολο δεδομένων εκπαίδευσης, όπως το MSCOCO που χρησιμοποιήθηκε σε αυτή τη διπλωματική, δείχνουν την ακρίβεια του μοντέλου και την ευχέρεια που αποκτά η γλώσσα αποκλειστικά μέσα από τις περιγραφές των εικόνων. Το μοντέλο, το οποίο ελέγθηκε ποιοτικά και ποσοτικά, είναι συχνά αρκετά ακριβές.	el
Content Summary	Image captioning is a complex problem that combines the fields of computer vision and natural language processing. It generates natural language sentences that describe the content of an image. Image captioning has several applications in the real world with significant practical impact, from assisting users with visual impairments to personal assistants through human-robot interaction. The progress in image captioning is a major success of Artificial Intelligence. It has been reported that under some metrics, such as BLUE or CIDEr, the most up-to-date techniques even outperform human performance. In this thesis, we implement and present a model based on machine learning techniques that combines the latest developments in computer vision and machine translation that can be used to create natural sentences that describe an image. Specifically, a combination of Convolutional Neural Networks together with Recurrent Neural Networks was used to obtain the desired results. The models were trained to maximize the likelihood of a target description given the training image. Experiments on a huge set of training data, such as the MSCOCO 2015 used in this thesis, demonstrate the accuracy of the model and the fluency of the language that is acquired through the image descriptions alone. It has been tested qualitatively and quantitatively that the model is often quite accurate.	en
Type of Item	Διπλωματική Εργασία	el
Type of Item	Diploma Work	en
License	http://creativecommons.org/licenses/by/4.0/	en
Date of Item	2019-10-11	-
Date of Publication	2019	-
Subject	Machine learning	en
Subject	Recurrent neural networks	en
Subject	Convolutional neural networks	en
Bibliographic Citation	Nantia-Efthymia Frechat, "Exploring efficiency and performance of image captioning", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019	en
Bibliographic Citation	Νάντια-Ευθυμία Φρεχάτ, "Διερευνώντας την αποτελεσματικότητα και την απόδοση του υποτιτλισμού εικόνας", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019	el

Search

Browse

My Space

Exploring efficiency and performance of image captioning

Frechat Nantia-Efthymia

Available Files

Services

Export

Share

Statistics

Metadata & Content in a METS Package:

Metadata in Format: