Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Ανακοίνωση Παρουσίασης Διπλωματικής Εργασίας Πεχλιβάνη Κωνσταντίνου Σχολής ΗΜΜΥ

  • Συντάχθηκε 03-12-2013 15:47 από Eleni Stamataki Πληροφορίες σύνταξης

    Email συντάκτη: estamataki<στο>tuc.gr

    Ενημερώθηκε: -

    Ιδιότητα: σύνταξη/αποχώρηση υπάλληλος.
    Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    ΚΩΝΣΤΑΝΤΙΝΟΣ ΠΕΧΛΙΒΑΝΗΣ

    με θέμα

    Ομαδοποίηση και Βελτιστοποίηση σε
    Συνεχή Γλωσσικά Μοντέλα
    Clustering and Optimization in Continues
    Language Model

    Πέμπτη 5 Δεκεμβρίου 2013, 16.00 μ.μ
    Αίθουσα εργαστηρίου intelligence, Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή

    Καθηγητής Βασίλειος Διγαλάκης (επιβλέπων)
    Αναπληρωτής Καθηγητής Μιχαήλ Γ. Λαγουδάκης (ΗΜΜΥ)
    Καθηγητής Μιχαήλ Πατεράκης (ΗΜΜΥ)


    Περίληψη

    Τα στατιστικά γλωσσικά μοντέλα χρησιμοποιούνται ευρέως σε πολλές καθημερινές εφαρμογές όπως σε συστήματα αναγνώρισης φωνής, αναγνώρισης ομιλίας, οπτικής αναγνώριση χαρακτήρων ή συστήματα αυτόματης μετάφρασης. Τα N-grams μοντέλα, τα οποία είναι η κυρίαρχη τεχνολογία κατασκευής γλωσσικών μοντέλων, εμφανίζουν πολλές δυσκολίες εξαιτίας του μεγάλου πλήθους παραμέτρων από τις οποίες περιγράφονται και την ύπαρξη μηδενικών N-grams (μειονεκτήματα της γενίκευσης και της προσαρμοστικότητας). Για το λόγο αυτό, έχουν γίνει προσπάθειες κατασκευής γλωσσικών μοντέλων στο συνεχή χώρο τα οποία απαιτούν λιγότερες παραμέτρους και μπορούν να εξομαλυνθούν.
    Η υλοποίησης της εργασίας, ξεκινά με την προ-επεξεργασία των δεδομένων (δηλαδή
    των corpus Wall Street Journal), ώστε να έρθουν σε κατάλληλη μορφή και να βρεθεί το
    λεξικό των μοντέλων. Η διαδικασία βασίστηκε σε δυο παραδοχές, που διακρίνονται στη
    χρήση τόσο ενός μικρού λεξιλογίου (2700 λέξεων) όσο και ενός μεγάλου (57788 λέξεων) που αφορά το συνολικό αριθμό διαφορετικών λέξεων στα δεδομένα εκπαίδευσης. Το βασικό στάδιο, επικεντρώνεται στην ομαδοποίηση του λεξιλογίου με εφαρμογή πληθώρας διαφορετικών τεχνικών ομαδοποίησης με αρχική αντιστοίχηση των λέξεων σε διανύσματα (πολλών διαστάσεων), στηριζόμενοι στην λεξιλογική και σημασιολογική ομοιότητα των δεδομένων. Το επόμενο βήμα, αφορά την εκτίμηση του πίνακα συν-εμφανίσεων των κλάσεων, ο οποίος στη συνέχεια συμπιέζεται με στόχο την μείωση των διαστάσεων και κανονικοποίησης των τιμών του, κάνοντας χρήση της μεθόδου, Ανάλυση στη Βάση των Ιδιάζουσων Τιμών (SVD). Κατά το επόμενο στάδιο, συγκεντρώσαμε τα ιστορικά διανύσματα κάθε κλάσης τα οποία χρησιμοποιήσαμε σε πρώτη φάση για την εκτίμηση στατιστικών τιμών με σκοπό την προβολή αυτών των διανυσμάτων σε χαμηλότερη διάσταση με τη χρήση της τεχνικής μείωσης διαστάσεων, Γραμμική Διαχωριστική Ανάλυση (LDA). Σε δεύτερο φάση, εκμεταλλευόμαστε αυτά τα ιστορικά διανύσματα που έχουμε προβάλει, ώστε να εκπαιδεύσουμε κάθε κλάση πάνω σε συνεχή μίξη Κανονικών κατανομών τις οποίες επεκτείναμε χρησιμοποιώντας μίξη «δεμένων» Κανονικών κατανομών. Το τελευταίο κομμάτι υλοποίησης, αφορούσε τη χρήση κάποιων μονάδων μέτρησης (εντροπία, περιπλοκή), από τη Θεωρία Πληροφορίας, για την αξιολόγηση της ακρίβειας των μοντέλων που κατασκευάσαμε. Πριν την εκτέλεση αριθμού πειραμάτων, με σκοπό την εύρεση των παραμέτρων που οδηγούν στο όσο το δυνατόν πιο εύρωστο γλωσσικό μοντέλο εφαρμόσαμε μια σειρά από βελτιστοποιήσεις.
    Η βελτιστοποίηση αφορούσε την επανεγγραφή συγκεκριμένων κομματιών κώδικα (που
    υλοποιούν την συνολική εργασία) με διαφορετικές, γλώσσες προγραμματισμού και μαθηματικές μεθόδους υλοποίησης, με στόχο τη μείωση της πολυπλοκότητας και κατ ́ επέκταση την ελαχιστοποίηση της ταχύτητας εκτέλεσης.
    Δοκιμάσαμε διάφορα πειράματα, προσεγγίσεις και τεχνικές και καταλήξαμε σε αρκετά
    ενδιαφέροντα συμπεράσματα, ικανά να εμπνεύσουν μελλοντικές εργασίες.

    Abstract

    Statistical Language Models are a popular research topic, widely used in many everyday applications such as voice recognition, speech recognition, optical character recognition or automatic translation systems. In such domains, N-grams models are the dominant technology for language modeling. However, such models are extremely difficult to be adapted, due to the large amount of required parameters and the existence of zeros to N-grams (disadvantages of generalization and adaptability). Thus, attempts have been made to generate language models in the continuous space which require less parameters and can be smoothing.
    In this thesis, at first we performed a pre-processing on the data (i.e. corpus Wall Street Journal), in order to come into a proper form and the dictionary of models to be found. The procedure was based on two assumptions, which are distinguished in the usage of a small (2700 words) and a large (57788 words) vocabulary. The latter is concerning the total number of different words in the training data. Initially, we focused on clustering a vocabulary using a variety of different clustering techniques which are based on the word mapping and the lexical and semantic similarity of data. Thereafter, we estimated the class co-occurrence matrix, which is compressed in order to reduce the dimensions and achieve normalization on the values, using the Singular Value Decomposition(SVD) technique. Then, we used the history vectors of each class to assess statistical values in order to project these vectors in a lower dimension, using the Linear Discriminant Analysis (LDA) technique. The second phase, regards the exploitation of these projected history vectors in order to train each class into Gaussian Mixture Models, which was extended using Tied Gaussian Mixtures Models. Finally, we used measurements like entropy and perplexity (Information Theory), to assess the accuracy of the models manufactured. Before executing the experiments, which lead on finding the parameters of a more robust language model, we applied a number of optimizations.
    The optimization performed, mainly involved code refactoring, in specific parts of our implementation with high computational cost, using different programming languages
    and mathematical methods, in order to reduce complexity and minimize execution time.
    We examined different experiments, approaches and techniques and came up to some
    useful conclusions which can feed many future works.

    Συνημμένα:

© Πολυτεχνείο Κρήτης 2012