Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Aνακοίνωση Παρουσίασης Διπλωματικής Εργασίας Δουγιάκη Λάζαρου Σχολής ΗΜΜΥ

  • Συντάχθηκε 24-10-2013 10:18 από Eleni Stamataki Πληροφορίες σύνταξης

    Email συντάκτη: estamataki<στο>tuc.gr

    Ενημερώθηκε: -

    Ιδιότητα: σύνταξη/αποχώρηση υπάλληλος.
    Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    ΛΑΖΑΡΟΥ ΔΟΥΓΙΑΚΗ

    με θέμα

    Κατηγοριοποίηση Κειμένων σε Συνεχή Χώρο με χρήση Gaussian Mixture Models
    Continuous Space Text Categorization using Gaussian Mixture Models

    Παρασκευή 25 Οκτωβρίου 2013, 11πμ
    Εργαστήριο Πληροφορίας και Δικτύων, Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή

    Καθηγητής Βασίλειος Διγαλάκης (επιβλέπων)
    Καθηγητής Μιχαήλ Πατεράκης
    Αναπληρωτής Καθηγητής Μιχαήλ Λαγουδάκης


    Περίληψη

    Η ταχεία εξάπλωση του διαδικτύου και η συνεχώς αυξανόμενη διάθεση υλικού σε ηλεκτρονική μορφή κάνει τη χρήση τεχνικών Κατηγοριοποίησης Κειμένου, για την εύρεση σχετικών πληροφοριών, ολοένα και πιο απαραίτητη. Η σπουδαιότητα της Κατηγοριοποίησης Κειμένων μπορεί να γίνει αντιληπτή από την πληθώρα εφαρμογών στις οποίες χρησιμοποιείται για την εξόρυξη πληροφορίας και από τη συνεχή έρευνα που γίνεται πάνω στο τομέα για την ανεύρεση νέων τεχνικών και αλγορίθμων. Οι τεχνικές αυτές επίσης μπορούν να βρουν εύκολά εφαρμογή και σε τομείς όπως π.χ. η επεξεργασία φωνής και η επεξεργασία εικόνας . Στη παρούσα διπλωματική εργασία, εξετάζεται η κατηγοριοποίηση των κειμένων ανάλογα με το θέμα τους χρησιμοποιώντας μίγμα συνεχών Gaussian κατανομών (Gaussian Mixture Models).
    Η χρήση μοντέλων συνεχούς χώρου (continuous space models) έχει να επιδείξει πολύ καλά αποτελέσματα σε εφαρμογές επεξεργασίας φωνής και στη συγκεκριμένη περίπτωση θέλουμε να εξετάσουμε αν μπορεί να έχει την ίδια επιτυχή εφαρμογή και σε εφαρμογές επεξεργασίας φυσικής γλώσσας .
    Η υλοποίηση της εργασίας ξεκινά από την προ-επεξεργασία των κειμένων ώστε να έρθουν σε μια πιο συμπαγή μορφή και ακολουθεί το στάδιο δημιουργίας του λεξικού των κειμένων και η κατανομή των βαρών στους όρους του κειμένου φέρνοντας ένα κείμενο από τη κλασσική αναπαράσταση του, μέσω λέξεων, σε διανυσματική μορφή (πιο κατανοητή στον υπολογιστή). Επόμενο βήμα είναι η μείωση των διαστάσεων των διανυσμάτων χρησιμοποιώντας τη μέθοδο Singular Value Decomposition (SVD) ,για τη διάσπαση πινάκων, της αριθμητικής γραμμικής άλγεβρας . Τέλος τα τελικά κείμενα – διανύσματα χρησιμοποιούνται για την εκπαίδευση των GMM .








    Abstract

    The rapid spread of the Internet and the ever increasing availability of electronic material makes the usage of text classification techniques for finding the relevant information, even more essential.
    The importance of text classification can be clearly seen from the plethora of applications where it is used to extract information from the continuous research done on the field to find new techniques and algorithms. Moreover, these techniques can easily apply in areas such as speech and image processes.
    This thesis examines the classification of texts depending on their topic using continuous mixture Gaussian distributions (Gaussian Mixture Models).
    The use of continuous space models will indicate satisfactory results in speech processing applications, in this case we want to consider if you have the same successful implementation and applications of natural language processing.
    The implementation work starts from the pre-processing of texts in order to appear into a more compact form, followed by the creation stage of dictionary and term weighting of bringing a text version of the classical representation through words in vector format (more understandable to the computer).
    Next step is to reduce the dimensions of the vectors using the Singular Value Decomposition (SVD), for the division of numerical linear algebra in tables. Finally, the final texts - vectors are being used for the training of GMM.

© Πολυτεχνείο Κρήτης 2012