Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Ανακοίνωση παρουσίασης διπλωματικής εργασίας Φραγκιαδάκη Γ. - ΗΜΜΥ

  • Συντάχθηκε 29-06-2012 10:59 από Galateia Malandraki Πληροφορίες σύνταξης

    Email συντάκτη: gmalandraki<στο>tuc.gr

    Ενημερώθηκε: -

    Ιδιότητα: υπάλληλος ΑΡΜΗΧ.

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών


    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    Φραγκιαδάκης Γεώργιος

    με θέμα

    “Κατάτμηση και κατηγοριοποίηση ομιλητών σε αρχεια video”
    “Speaker Segmentation and clustering on video files”

    Δευτέρα 2 Ιουλίου 2012, Ώρα 5μμ
    Αίθουσα 137.Π39, Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή

    Καθηγητής. Διγαλάκης Βασίλειος (Επιβλέπων)
    Επίκουρος καθηγητής. Καρυστινός Γεώργιος
    Αναπληρωτής καθηγητής. Ποταμιάνος Αλέξανδρος


    Περίληψη

    Η κατάτμηση ενός δελτίου ειδήσεων, που αποτελείται από πολυάριθμους ομιλητές πάντα αποτελούσε πρόκληση σε συστήματα αναγνώρισης ομιλίας. Σε αυτή την διατριβή,εξετάζουμε την τωρινή γνώση, αξιολογούμε τις διαδικασίες που εφαρμόζονται μέχρι σήμερα, εντοπίζουμε δυσκολίες και προτείνουμε πιθανές λύσεις.
    Συγκεκριμένα, αυτή η διατριβή έχει ως στόχο να εντοπίσει και να ξεπεράσει τις δυσκολίες της αναγνώρισης, ταξινόμησης, ομαδοποίησης και κατ’επέκταση της εξαγωγής ιδιαίτερων τμημάτων ομιλίας. Εστιάσαμε στο να είμαστε σε θέση πλέον να εντοπίζουμε τμήματα, τα οποία ανήκουν σε διαφορετικές κατηγορίες (όπως, μουσική, ομιλία προ-ηχογραφημένες διαφημίσεις κλπ) δίνοντας έμφαση σε αλλαγές ομιλητών. Αρχικά, αναφέρονται οι υπάρχουσες μέθοδοι κατάτμησης από την διεθνή βιβλιογραφία. Έπειτα το Bayesian Information criterion χρησιμοποιήθηκε για να εξεταστουν, αξιολογηθούν και να πειραματιστούν τα χαρακτηριστικά ήχου που είναι χρήσιμα για να διαφοροποιηθούν σαφώς τα τμήματα της ομιλίας. Η καινοτομία αυτής της διατριβής είναι ο σχεδιασμός και η επιτυχής υλοποίηση διαφοροποιήσεων του κριτηρίου. Αυτό το κριτήριο πλέον μπορεί να χρησιμοποιεί συνδυασμό χαρακτηριστικών ήχου καθώς και να χρησιμοποιήσει διαφορετικές συναρτήσεις πυκνότητας πιθανότητας.
    Εν τέλει, εισάγουμε το μετασχηματισμό MLLR στο πεδίο της αυτόματης κατάτμησης και δημιουργούμε ένα ολοκληρωμένο σύστημα που εξάγει τμήματα ομιλίας με σημαντική επιτυχία

    Abstract
    Segmenting a broadcast signal that consists of numerous speakers has always posed a challenge to speech recognition systems. In this thesis we examine current knowledge, evaluate procedures implemented to date, identify obstacles and propose possible solutions.
    Specifically, this thesis aims to identify and overcome the difficulties in the identification, classification, clustering and by extrapolation, the extraction of particular segments of speech. We focused on being able henceforth to detect segments which belong to different categories (e.g. music, speech, prerecorded advertisements, etc.) emphasizing on speaker turns. Initially, existing methods of speech classification and segmentation are enumerated from the international literature. Subsequently the Bayesian Information Criterion (BIC) was used to examine, evaluate and finally to experiment with those characteristics that would serve to clearly differentiate features of speech. The novel aspect of the thesis is the design and successful implementation of an updated BIC module. The new version of the BIC uses different pdfs to model a combination of characteristics.
    Finally, the MLLR transform is introduced in the field of automatic segmentation and a comprehensive system is implemented that extracts sections of speech with considerable success.


    Συνημμένα:

© Πολυτεχνείο Κρήτης 2012