Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

FACESiR: face and speaker identity recognition in video streams

Karageorgiadis Anastasios

Simple record


URIhttp://purl.tuc.gr/dl/dias/8CF4DC95-DFB4-4E5F-8429-C5510F81BE56-
Identifierhttps://doi.org/10.26233/heallink.tuc.84791-
Languageen-
Extent105 pagesen
Extent6,5 megabytesen
TitleFACESiR: face and speaker identity recognition in video streamsen
TitleFACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεοel
CreatorKarageorgiadis Anastasiosen
CreatorΚαραγεωργιαδης Αναστασιοςel
Contributor [Thesis Supervisor]Lagoudakis Michailen
Contributor [Thesis Supervisor]Λαγουδακης Μιχαηλel
Contributor [Committee Member]Chalkiadakis Georgiosen
Contributor [Committee Member]Χαλκιαδακης Γεωργιοςel
Contributor [Committee Member]Diakoloukas Vasileiosen
Contributor [Committee Member]Διακολουκας Βασιλeioςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
Content SummaryPerson indexing in video streams requires first to recognize a person’s identity and secondly finding the time slot in which a person appears. In this diploma thesis, we develop a method for identifying exposed speakers within a video stream using machine learning techniques. More specifically, with the help of Neural Networks, after we exploit the structure of a video as a sequence of images and sounds, we use these data for the identification of a speaker at each video frame. The above problem is divided into two sub-problems, Face Recognition and Speaker Recognition, where we use a top-down design to split them into smaller ones. Each sub-problem is solved individually, but the combination of their output probabilities per class leads to an improved final decision regarding classification. The method has been implemented in the Python programming language using the Tensorflow framework and the Keras API. The suggested approach is based on Convolutional Neural Network architectures for both Face and Speaker Recognition. As a result, the combination of image and sound leads to a better decision for the identity of a person who appears in a specific time slot of the video. In addition, the main advantage of the proposed method is that it can be utilized for many different use cases, such as search for missing persons, recognition of celebrities, or even promotion of public figures. It is also worth mentioning that with some minor changes it can be used for identifying any other entity in a video stream.en
Content SummaryΗ εύρεση ενός προσώπου σε μία ροή βίντεο απαιτεί πρώτα να αναγνωριστεί η ταυτότητα του εικονιζόμενου και δεύτερον το χρονικό εκείνο διάστημα στο οποίο εμφανίζεται. Στην παρούσα διπλωματική εργασία, αναπτύσσουμε μία μέθοδο αναγνώρισης εμφανιζόμενων ομιλητών εντός μιας ροής βίντεο χρησιμοποιώντας τεχνικές μηχανικής μάθησης. Πιο συγκεκριμένα, αφού αξιοποιήσουμε την δομή ενός βίντεο ως μια ακολουθία εικόνων και ήχων, χρησιμοποιούμε αρχιτεκτονικές νευρωνικών δικτύων, για την ταυτοποίηση ομιλητών σε κάθε πλαίσιο εικόνας. Το παραπάνω πρόβλημα χωρίζεται σε δύο υπο-προβλήματα, την Αναγνώριση Προσώπου και την Αναγνώριση Ομιλητή, όπου με μία top-down σχεδίαση καταλήγουμε σε ακόμη μικρότερα προβλήματα προς επίλυση. Το κάθε υπο-πρόβλημα επιλύεται ξεχωριστά, ωστόσο συνδυάζοντας τις λύσεις τους με την χρήση των πιθανοτήτων εξόδου ανά κατηγορία, πετυχαίνουμε βελτίωση στην τελική μας απόφαση για κατηγοριοποίηση στη σωστή κλάση. Η εργασία έχει υλοποιηθεί στη γλώσσα προγραμματισμού Python με την χρήση του Tensorflow και του Keras. Η προτεινόμενη προσέγγιση έχει στηριχθεί σε Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks), τόσο για την αναγνώριση προσώπου, όσο και ομιλητή. Ως αποτέλεσμα, ο συνδυασμός εικόνας και ήχου οδηγεί σε ορθότερη απόφαση για την ταυτότητα ενός ατόμου που εμφανίζεται σε κάποιο χρονικό διάστημα του βίντεο. Επιπλέον το βασικό πλεονέκτημα της προτεινόμενης μεθόδου είναι ότι μπορεί να αξιοποιηθεί σε πολλές διαφορετικές εφαρμογές, όπως εύρεση αγνοουμένων, αναγνώριση διασημοτήτων, ή ακόμη και προώθηση δημοσίων προσώπων. Αξίζει να σημειωθεί ότι με κάποιες μικρές αλλαγές μπορεί να χρησιμοποιηθεί για ταυτοποίηση οποιασδήποτε άλλης οντότητας σε ροή βίντεο.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2020-02-28-
Date of Publication2019-
SubjectArtificial intelligenceen
SubjectΤεχνητή νοημοσύνηel
SubjectMachine learningen
SubjectΑναγνώριση προσώπου και φωνής ομιλητήel
SubjectFace and speaker recognitionen
SubjectΣυνελικτικά νευρωνικά δίκτυαel
SubjectConvolutional neural networksen
SubjectTensorflowen
SubjectKerasen
SubjectOpenCVen
Bibliographic CitationAnastasios Karageorgiadis, "FACESiR: face and speaker identity recognition in video streams", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019en
Bibliographic CitationΑναστάσιος Καραγεωργιάδης, "FACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεο", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019el

Available Files

Services

Statistics