Συντάχθηκε 09-10-2019 13:39
Ενημερώθηκε:
28-02-2020 10:48
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΑΝΑΣΤΑΣΙΟΥ ΚΑΡΑΓΕΩΡΓΙΑΔΗ
με θέμα
FACESiR: Αναγνώριση Προσώπου και Ομιλητή σε Ροή Βίντεο
FACESiR: Face and Speaker Identity Recognition in Video Streams
Πέμπτη 10 Οκτωβρίου 2019, 3:30 μ.μ.
Αίθουσα Εργ. Intelligence, 141.Α14-1, Κτίριο Επιστημών, Πολυτεχνειούπολη
Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Μιχαήλ Γ. Λαγουδάκης (επιβλέπων)
Αναπληρωτής Καθηγητής Γεώργιος Χαλκιαδάκης
Δρ. Βασίλειος Διακολουκάς (ΕΔΙΠ)
Περίληψη
Τα τελευταία χρόνια με την ραγδαία αύξηση του όγκου των πληροφοριών, διαρκώς προκύπτουν καινούρια προβλήματα όσον αφορά στην γρήγορη, αξιόπιστη και ασφαλή επεξεργασία τους. Έτσι δημιουργείται η ευκαιρία για τον τομέα της τεχνητής νοημοσύνης να δώσει λύση σε αυτά τα προβλήματα, καθώς οι συμβατικοί τρόποι αδυνατούν να το πράξουν. Στην παρούσα διπλωματική εργασία, αναπτύσσουμε μία μέθοδο αναγνώρισης εμφανιζόμενων ομιλητών εντός μιας ροής βίντεο χρησιμοποιώντας τεχνικές μηχανικής μάθησης. Πιο συγκεκριμένα, αφού αξιοποιήσουμε την δομή ενός βίντεο ως μια ακολουθία εικόνων και ήχων, χρησιμοποιούμε αρχιτεκτονικές βαθέων νευρωνικών δικτύων, για την ταυτοποίηση των ομιλητών ανά πλαίσιο εικόνας. Το παραπάνω πρόβλημα χωρίζεται σε δύο υπο-προβλήματα, την Αναγνώριση Προσώπου και την Αναγνώριση Ομιλητή, όπου με μία top-down σχεδίαση καταλήγουμε σε ακόμη μικρότερα προβλήματα προς επίλυση. Το κάθε υπο-πρόβλημα επιλύεται ξεχωριστά, ωστόσο συνδυάζοντας τις λύσεις τους με την χρήση των πιθανοτήτων εξόδου ανά κατηγορία, πετυχαίνουμε βελτίωση στην τελική μας απόφαση για κατηγοριοποίηση στη σωστή κλάση. Η εργασία έχει υλοποιηθεί στη γλώσσα προγραμματισμού Python με την χρήση του πλαισίου Tensorflow και του Keras.Η προτεινόμενη προσέγγιση έχει στηριχθεί σε Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks), τόσο για την αναγνώριση προσώπου, όσο και ομιλητή. Ως αποτέλεσμα, ο συνδυασμός εικόνας και ήχου οδηγεί σε ορθότερη απόφαση για την ταυτότητα ενός ατόμου που εμφανίζεται σε κάποιο χρονικό διάστημα του βίντεο. Επιπλέον το βασικό πλεονέκτημα της προτεινόμενης μεθόδου είναι ότι μπορεί να αξιοποιηθεί σε πολλές διαφορετικές εφαρμογές, όπως εύρεση αγνοουμένων, αναγνώριση διασημοτήτων, ή ακόμη και για καλύτερη προώθηση δημοσίων προσώπων. Αξίζει να σημειωθεί ότι με κάποιες μικρές αλλαγές μπορεί να χρησιμοποιηθεί για ταυτοποίηση οποιασδήποτε άλλης οντότητας.
Abstract
In recent years, with the rapid increase in the volume of information, new problems have been emerging with regard to their fast, reliable, and secure processing. This raises the opportunity for the field of artificial intelligence to solve these problems, as conventional ways fail to do so. In this diploma thesis, we develop a method for identifying exposed speakers within a video stream using machine learning techniques. More specifically, with the help of Deep Neural Networks, after we exploit the structure of a video as a sequence of images and sounds, we use these data for the identification of a speaker per frame. The above problem is divided into two sub-problems, Face Recognition and Speech Recognition, where by using a top-down Design we split them to smaller ones. Each sub-problem is solved individually, but the combination of their output probabilities per class, leads to an improved final decision regarding classification. The method has been implemented in the Python programming language using the Tensorflow framework and the Keras API. The suggested approach is based on Convolutional Neural Networks architectures both for Face and Speech Recognition. As a result, the combination of face and speech leads to a better decision for the identity of a person who appears in a specific time slot of the video. In addition, the main advantage of the proposed method is that it can be utilized for many different use cases, such as finding missing persons, celebrity recognition, or even for the promotion of public figures. It is also worth mentioning that with some minor changes it can be used for identifying any other entity.
Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 141Α-14, Αίθουσα Εργαστηρίου Intelligence, Πολυτεχνειούπολη
Έναρξη: 10/10/2019 15:30
Λήξη: 10/10/2019 16:30