Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

FACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεο

Karageorgiadis Anastasios

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/8CF4DC95-DFB4-4E5F-8429-C5510F81BE56-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.84791-
Γλώσσαen-
Μέγεθος105 pagesen
Μέγεθος6,5 megabytesen
ΤίτλοςFACESiR: face and speaker identity recognition in video streamsen
ΤίτλοςFACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεοel
ΔημιουργόςKarageorgiadis Anastasiosen
ΔημιουργόςΚαραγεωργιαδης Αναστασιοςel
Συντελεστής [Επιβλέπων Καθηγητής]Lagoudakis Michailen
Συντελεστής [Επιβλέπων Καθηγητής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Chalkiadakis Georgiosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Χαλκιαδακης Γεωργιοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Diakoloukas Vasileiosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Διακολουκας Βασιλeioςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηPerson indexing in video streams requires first to recognize a person’s identity and secondly finding the time slot in which a person appears. In this diploma thesis, we develop a method for identifying exposed speakers within a video stream using machine learning techniques. More specifically, with the help of Neural Networks, after we exploit the structure of a video as a sequence of images and sounds, we use these data for the identification of a speaker at each video frame. The above problem is divided into two sub-problems, Face Recognition and Speaker Recognition, where we use a top-down design to split them into smaller ones. Each sub-problem is solved individually, but the combination of their output probabilities per class leads to an improved final decision regarding classification. The method has been implemented in the Python programming language using the Tensorflow framework and the Keras API. The suggested approach is based on Convolutional Neural Network architectures for both Face and Speaker Recognition. As a result, the combination of image and sound leads to a better decision for the identity of a person who appears in a specific time slot of the video. In addition, the main advantage of the proposed method is that it can be utilized for many different use cases, such as search for missing persons, recognition of celebrities, or even promotion of public figures. It is also worth mentioning that with some minor changes it can be used for identifying any other entity in a video stream.en
ΠερίληψηΗ εύρεση ενός προσώπου σε μία ροή βίντεο απαιτεί πρώτα να αναγνωριστεί η ταυτότητα του εικονιζόμενου και δεύτερον το χρονικό εκείνο διάστημα στο οποίο εμφανίζεται. Στην παρούσα διπλωματική εργασία, αναπτύσσουμε μία μέθοδο αναγνώρισης εμφανιζόμενων ομιλητών εντός μιας ροής βίντεο χρησιμοποιώντας τεχνικές μηχανικής μάθησης. Πιο συγκεκριμένα, αφού αξιοποιήσουμε την δομή ενός βίντεο ως μια ακολουθία εικόνων και ήχων, χρησιμοποιούμε αρχιτεκτονικές νευρωνικών δικτύων, για την ταυτοποίηση ομιλητών σε κάθε πλαίσιο εικόνας. Το παραπάνω πρόβλημα χωρίζεται σε δύο υπο-προβλήματα, την Αναγνώριση Προσώπου και την Αναγνώριση Ομιλητή, όπου με μία top-down σχεδίαση καταλήγουμε σε ακόμη μικρότερα προβλήματα προς επίλυση. Το κάθε υπο-πρόβλημα επιλύεται ξεχωριστά, ωστόσο συνδυάζοντας τις λύσεις τους με την χρήση των πιθανοτήτων εξόδου ανά κατηγορία, πετυχαίνουμε βελτίωση στην τελική μας απόφαση για κατηγοριοποίηση στη σωστή κλάση. Η εργασία έχει υλοποιηθεί στη γλώσσα προγραμματισμού Python με την χρήση του Tensorflow και του Keras. Η προτεινόμενη προσέγγιση έχει στηριχθεί σε Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks), τόσο για την αναγνώριση προσώπου, όσο και ομιλητή. Ως αποτέλεσμα, ο συνδυασμός εικόνας και ήχου οδηγεί σε ορθότερη απόφαση για την ταυτότητα ενός ατόμου που εμφανίζεται σε κάποιο χρονικό διάστημα του βίντεο. Επιπλέον το βασικό πλεονέκτημα της προτεινόμενης μεθόδου είναι ότι μπορεί να αξιοποιηθεί σε πολλές διαφορετικές εφαρμογές, όπως εύρεση αγνοουμένων, αναγνώριση διασημοτήτων, ή ακόμη και προώθηση δημοσίων προσώπων. Αξίζει να σημειωθεί ότι με κάποιες μικρές αλλαγές μπορεί να χρησιμοποιηθεί για ταυτοποίηση οποιασδήποτε άλλης οντότητας σε ροή βίντεο.el
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2020-02-28-
Ημερομηνία Δημοσίευσης2019-
Θεματική ΚατηγορίαArtificial intelligenceen
Θεματική ΚατηγορίαΤεχνητή νοημοσύνηel
Θεματική ΚατηγορίαMachine learningen
Θεματική ΚατηγορίαΑναγνώριση προσώπου και φωνής ομιλητήel
Θεματική ΚατηγορίαFace and speaker recognitionen
Θεματική ΚατηγορίαΣυνελικτικά νευρωνικά δίκτυαel
Θεματική ΚατηγορίαConvolutional neural networksen
Θεματική ΚατηγορίαTensorflowen
Θεματική ΚατηγορίαKerasen
Θεματική ΚατηγορίαOpenCVen
Βιβλιογραφική ΑναφοράAnastasios Karageorgiadis, "FACESiR: face and speaker identity recognition in video streams", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019en
Βιβλιογραφική ΑναφοράΑναστάσιος Καραγεωργιάδης, "FACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεο", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά