Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Ανακοίνωση παρουσίασης διπλωματικής εργασίας Κουρπά Σ. - ΗΜΜΥ

  • Συντάχθηκε 07-03-2013 12:02 από Galateia Malandraki Πληροφορίες σύνταξης

    Email συντάκτη: gmalandraki<στο>tuc.gr

    Ενημερώθηκε: -

    Ιδιότητα: υπάλληλος ΑΡΜΗΧ.
    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    ΚΟΥΡΠΑΣ ΣΤΑΜΑΤΙΟΣ

    με θέμα
    “Αναγνώριση Φωνής με χρήση
    Γενικευμένων Φασματικών Ροπών”
    “Robust Speech Recognition using
    Generalized Spectral Moments”

    Πέμπτη 7 Μαρτίου 2013, 1μμ
    Αίθουσα 137Π39, Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή
    Αναπληρωτής Καθηγητής Ποταμιάνος Αλέξανδρος (επιβλέπων)
    Καθηγητής Διγαλάκης Βασίλειος
    Καθηγητής Ζερβάκης Μιχάλης

    Περίληψη
    Η βελτιστοποίηση της μετάδοσης σήματος φωνής απασχολεί μεγάλο μέρος επιστημόνων και ερευνητών που
    δραστηριοποιούνται στον τομέα Τηλεπικοινωνιών. Και αυτό διότι μια τέτοια βελτιστοποίηση είναι χρήσιμη για
    τη βελτίωση πολλών εφαρμογών μετάδοσης σήματος φωνής, όπως η αναγνώριση ομιλίας και η σύνθεση φωνής
    από κείμενο. Μέχρι στιγμής, έχουν προταθεί διάφορες μέθοδοι γι' αυτή τη βελτιστοποίηση. Κάποιες από αυτές
    αφορούν τη χρήση front-end. Στόχος των front-ends είναι η παραμετροποίηση των ακουστικών
    χαρακτηριστικών ενός σήματος φωνής, σε διάνυσμα, που το κάθε στοιχείο του αποτελεί ένα χαρακτηριστικό
    του σήματος. Παραδείγματα τέτοιων χαρακτηριστικών είναι τα MFCC, τα FMP, τα SMAC, αλλά και ο
    συνδυασμός τους. Στην παρούσα διπλωματική εργασία ερευνούμε το ρόλο που παίζουν διάφορες παράμετροι,
    που λαμβάνουν χώρα κατά την κατασκευή των front-end χαρακτηριστικών, στην απόδοσή τους, με γνώμονα
    την ακρίβεια μετάδοσης, όπως αυτή προκύπτει από την πειραματική πλατφόρμα HTK. Στόχος μας είναι η
    εύρεση κατάλληλων τιμών σε αυτές τις παραμέτρους, προκειμένου να επιτευχθεί η βέλτιστη δυνατή απόδοση,
    για τις περιπτώσεις που χρησιμοποιούμε τους συνδυασμούς MFCC-FMP και SMAC-FMP. Τα συμπεράσματα
    που προκύπτουν μπορούν να βοηθήσουν τον κάθε ενδιαφερόμενο στην κατανόηση του ρόλου διαφόρων
    παραμέτρων στην τελική απόδοση του συστήματος, άρα και στην βαθύτερη κατανόηση της διαδικασίας
    αναγνώρισης σήματος φωνής. Επίσης, μπορούν να συνεισφέρουν στην περαιτέρω εξέλιξη της έρευνας
    βελτιστοποίησης της μετάδοσης σήματος φωνής με χρήση κατάλληλων front-end χαρακτηριστικών.
    Abstract
    The optimization of the speech signal transmission occupies a large number of scientists and researchers who
    work in the Telecommunication field. This happens due to the fact that such an optimization is useful for many
    speech signal application's improvement, such as speech recognition and voice synthesis from text. Until now,
    several methods for this optimization have been suggested. Some of them regard the use of front-end. Frontends
    purpose is the parameterization of the speech signal features in a vector, whose each element consists a
    signal feature. MFCC, FMP, SMAC and there combinations are such feature examples. On this thesis we
    investigate the role that several parameters, that take place in the front-end features production, play on the
    front-end features attribution, observing the transmission accuracy taken by the experimental platform HTK.
    Our purpose is to find the appropriate values for those parameters, so as to achieve the best possible accuracy,
    for the cases that we use the MFCC-FMP and SMAC-FMP combination. The conclusions that we take can help
    every interested person to understand the role that some parameters play in the final system accuracy, and as a
    result, in the deeper undestanding of the speech recognition process. Furthermore, they can contribute to the
    further optimization of the speech signal transmission research using appropriate front-end features.

© Πολυτεχνείο Κρήτης 2012