Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση Διπλωματικής Εργασίας Δημήτρη Καγιαρά - Σχολή ΗΜΜΥ

  • Συντάχθηκε 23-10-2013 15:40 από Balasi Panagiota Πληροφορίες σύνταξης

    Email συντάκτη:

    Ενημερώθηκε: -

    Ιδιότητα: -.

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    ΔΗΜΗΤΡΗ ΚΑΓΙΑΡΑ

    με θέμα

    Συνεχή Γλωσσικά Μοντέλα με Σημασιολογική και Συντακτική πληροφορία.
    Continuous Language Models with Semantic and Syntactic information


    Παρασκευή 25 Οκτώβριου 2013, 12πμ
    Εργαστήριο Πληροφορίας Και Δικτύων, Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή
    Καθηγητής Βασίλης Διγαλάκης (επιβλέπων)
    Καθηγητής Μιχαήλ Πατεράκης
    Αναπληρωτής Καθηγητής Μιχαήλ Λαγουδάκης

    Περίληψη

    Στη διατριβή αυτή, κάνουμε χρήση κάποιων μητρικών σημασιολογικής ομοιότητας σε συνδυασμό με τη μητρική συχνότητας εμφάνισης των λέξεων και τη συντακτική ανάλυση κάθε λέξης, έτσι ώστε να έχουμε ένα διάνυσμα, το οποίο θα περιγράφει πλήρως τη λέξη μας, ώστε να μπορούμε να εκπαιδεύσουμε ένα ολοκληρωμένο γλωσσικό μοντέλο. Οι μητρικές ομοιότητας τις οποίες κάναμε χρήση είναι οι: Cosine Similarity, Jaccard Similarity, Overlap Coefficient Similarity, Dice Similarity και Normalized Google Distance. Όσον αφόρα τη μητρική συχνότητας εμφάνισης των λέξεων είναι η Co-occurrence.
    Στη συνέχεια, προτείνουμε να μεταφέρουμε το γλωσσικό μοντέλο μας σε συνεχή χώρο, κάνοντας χρήση πολυωνυμικών Gaussian κατανομών. Στην ουσία, για κάθε λέξη θα υπάρχουν κάποια Gaussian Mixture Model (GMM), τα οποία θα περιγράφουν πλήρως τα διανύσματα που δημιουργήθηκαν από τις παραπάνω μητρικές. Ακόμη, υπάρχουν και τα Tied Gaussian Mixture Model (TGMM), τα οποία προσδιορίζουν καλύτερα τα διανύσματα μας. Το πιο ενδιαφέρον χαρακτηριστικό της προτεινόμενης μεθόδου είναι ότι μπορούμε να κάνουμε χρήση πολλές μεθόδους οι οποίες έχουν αναπτυχθεί για ακουστικά μοντέλα.
    Με τη χρήση της πολυωνυμικής κανονικής κατανομής μπορούμε να μεταφερθούμε από το διακριτό χώρο στο συνεχή. Αυτό θα μας βοηθήσει διότι θα έχουμε ένα μοντέλο το οποίο θα περιγράφεται από GMM που θα έχουν κοινό σύνολο παραμέτρων. Έτσι, κάνοντας χρήση στατιστικών αλγορίθμων, θα μπορούμε να δούμε εάν το μοντέλο μας αποδίδει. Ένας από αυτούς τους αλγορίθμους είναι ο Expectation Maximization (EM) .
    Επιπλέον, θα πρέπει να χρησιμοποιήσουμε μία μέθοδο χαρτογράφησης που από το διακριτό χώρο θα πηγαίνουμε στο συνεχή και θα παίρνουμε ως αποτέλεσμα συνεχή διανύσματα. Τεχνικές και μέθοδοι για την χαρτογράφηση και μείωση των διαστάσεων μπορούν να παρθούν από τη γραμμική άλγεβρα και την αναγνώριση προτύπων, όπως είναι το Singular Value Decomposition (SVD) και Linear Discriminant Analysis.



© Πολυτεχνείο Κρήτης 2012