Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Εμφάνιση ενός Νέου - DO NOT DELETE

Διάκριση στον διαγωνισμό SemEval-2016 με τη συμμετοχή μελών του Πολυτεχνείου Κρήτης

 

Η ομάδα Tweester, κατέλαβε την 1η θέση -ανάμεσα σε 19 ομάδες- στον παγκόσμιο διαγωνισμό επεξεργασίας φυσικής γλώσσας SemEval-2016. Η ομάδα αποτελείται από τη μεταπτυπτυχιακή φοιτήτρια της Σχολής Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών Πολυτεχνείου Κρήτης,  κα Ελισάβετ Παλογιαννίδη, τους απόφοιτους της Σχολής κ.κ. Αθανασία Κολοβού, Ηλίας Ιωσήφ και Νικόλαος Μαλανδράκης, τους προπτυχιακούς φοιτητές της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Ε.Μ.Π. Φένια Χριστοπούλου και Φίλιππος Κόκκινος. Μέλη της ομάδας είναι ακόμα ο ερευνητής του Ινστιτούτου Επεξεργασίας Λόγου Χάρης Παπαγεωργίου και ο καθηγήτής του Viterbi School of Engineering Shrikanth Narayanan. Η ομάδα Tweester λειτούργησε υπό την καθοδήγηση του  Αναπληρωτή Καθηγητή ΕΜΠ Αλέξανδρου Ποταμιάνου-πρώην μέλος ΔΕΠ της Σχολή ΗΜΜΥ Πολυτεχνείου Κρήτης.

Ο διαγωνισμός SemEval-2016 είναι ο 10ος συνεχόμενος διαγωνισμός πάνω σε διάφορες ενότητες που έχουν να κάνουν με την επεξεργασία φυσικής γλώσσας και είναι ιδιαίτερα δημοφιλής προσελκύοντας συμμετέχοντες από όλον τον κόσμο. Φέτος υπήρχαν συνολικά πέντε ενότητες, καθεμία εκτων οποίων περιέχει επιμέρους tasks και subtasks.

Η ομάδα Tweester συμμετείχε στην ενότητα "Sentiment Analysis" (Συναισθηματική ανάλυση) και συγκεκριμένα στο κομμάτι του διαγωνισμού που έχει να κάνει με τη συναισθηματική ανάλυση των tweets, δηλαδή των κειμένων (status) που γράφονται στο δημοφιλές κοινωνικό δίκτυο twitter.  Το συγκεκριμένο κομμάτι προσέλκυσε 43 ομάδες ομάδες από όλο τον κόσμο (Πίνακας 7 από http://alt.qcri.org/semeval2016/task4/data/uploads/semeval2016_task4_results.pdf), 19 εκ των οποίων συμμετείχαν στην ίδια κατηγορία με την ομάδα Tweester (Πίνακας 3 από http://alt.qcri.org/semeval2016/task4/data/uploads/semeval2016_task4_results.pdf).

Το σύστημα
Το πρόβλημα προς επίλυση ήταν η ταξινόμηση των tweets ως προς το συναίσθημα που εκφέρουν. Συγκεκριμένα έπρεπε να αναπτυχθεί ένα σύστημα το οποίο θα είναι σε θέση να δέχεται κομμάτια κειμένου, που δε γνωρίζει εκ των προταίρων, να αποφασίζει αν το συναίσθημα που εκφέρουν είναι θετικό ή αρνητικό και έπειτα να τα ταξινομεί αναλόγως. Όραμα της ομάδας ήταν η δημιουργία ενός συστήματος το οποίο θα αξιοποιεί όλη την πληροφορία που που μπορεί να διεξαχθεί από το κείμενο, έχοντας πάντα ως κίνητρο τον τρόπο με τον οποίο αντιλαμβάνεται και αποφασίζει το ανθρώπινο μυαλό. Έτσι, αναπτύχθηκε ένα σύνολο από συστήματα που χρησιμοποιούν τεχνικές μηχανικής μάθησης (machine learning) και τα οποία συνδυάστηκαν με πιθανοτικό τρόπο ώστε να παρθεί η τελική απόφαση. Τα επιμέρους συστήματα χρησιμοποιούν Νευρωνικά Δίκτυα (Neural Networks) καθώς και μεθόδους εξόρυξης κειμένου (text mining) βασισμένους στη θεματολογία που εντοπίζεται στο κείμενο (topic modeling). Σημαντικό μέρος των συστημάτων αφορά τη σημασιολογική αναπαράσταση της λεξικής πληροφορίας των tweets, καθώς και τη εξαγωγή χαρακτηριστικών (feature extraction) τα οποία χρησιμοποιούνται για την εκπαίδευση (training) των ταξινομητών (classifiers) που αναπτύχθηκαν.

Η ανάπτυξη του Tweester ήταν εντατική δουλειά τριών μηνών, όμως προκειται για τη συνέχεια έρευνας που είχε γίνει σε βάθος χρόνων.

Το βραβευμένο σύστημα Tweester θα παρουσιαστεί στο San Diego στις 16-17 Ιουνίου στα πλαίσια του διεθνούς συνεδρίου NAACL.

© Πολυτεχνείο Κρήτης 2012