Συντάχθηκε 08-07-2016 11:31
από Esthir Gelasaki
Email συντάκτη: egelasaki<στο>tuc.gr
Ενημερώθηκε:
08-07-2016 11:48
Ιδιότητα: υπάλληλος.
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Μεταπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ
ΕΛΙΣΑΒΕΤ ΠΑΛΟΓΙΑΝΝΙΔΗ
με θέμα
Affective Analysis and Modeling of Spoken Dialogue Transcripts
Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Πολυχρόνης Κουτσάκης (επιβλέπων)
Αναπληρωτρια Καθηγήτρια Αικατερίνη Μανιά
Αναπληρωτής Καθηγητής Αλέξανδρος Ποταμιάνος (Σχολή ΗΜΜΥ, ΕΜΠ)
Περίληψη
Σε αυτή την εργασία προτείνουμε υπολογιστικά μοντέλα για τη συναισθηματική ανάλυση λεξικών μονάδων διαφόρων επιπέδων, ξεκινώντας από λέξεις και καταλήγοντας σε προτάσεις.
Προτείνουμε και αξιολογούμε τη χρήση ενός συναισθηματικού-σημασιολογικού μοντέλου που
στοχεύει στην επέκταση συναισθηματικών λεξικών διαφόρων γλωσσών όπως Γερμανικά, Ελληνικά, Αγγλικά, Ισπανικά και Πορτογαλικά. Εμπνευσμένοι από την υπόθεση ότι η σημασιολογική ομοιότητα μπορεί να μετατραπεί σε συναισθηματική ομοιότητα, χρησιμοποιούμε σημασιολογικές αποστάσεις ανάμεσα σε λέξεις ως χαρακτηριστικά, προκειμένου να εκτιμήσουμε
τις συναισθηματικές ετικέτες των λέξεων. Ερευνούμε διάφορες σημασιολογικές μετρικές που
βασίζονται στα συμφραζόμενα, χρησιμοποιώντας χαρακτηριστικά που βασίζονται σε διαφορετικά είδη συμφραζομένων όπως λέξεις ή συνεχόμενους χαρακτήρες. Το μοντέλο παράγει
συναισθηματικές ετικέτες σε τρεις συνεχείς συναισθηματικές διαστάσεις (valence, arousal,
dominance) σε καθεμία από τις πέντε γλώσσες, πετυχαίνοντας υψηλή απόδοση πάντα. Συγ-κεκριμένα η απόδοση ταξινόμησης που πετυχαίνουμε κυμαίνεται μεταξύ 85% και 90%. Η χρήση
των συνεχόμενων χαρακτήρων ως χαρακτηριστικά συμφραζομένων φαίνεται πως ωφέλησε τις
μορφολογικά πλούσιες γλώσσες. Προκειμένου να εφαρμόσουμε το μοντέλο στην Ελληνική
γλώσσα χρειάστηκε να δημιουργήσουμε το δικό μας συναισθηματικό λεξικό, μεταφράζοντας
τις λέξεις του αντίστοιχου Αγγλικού. Αυτό το λεξικό είναι το πρώτο που δημιουργήθηκε για τα
Ελληνικά και περιλαμβάνει ετικέτες για τις τρεις συναισθηματικές διαστάσεις που αναφέραμε
για 1034 λέξεις.
Εμπνευσμένοι από τα πρόσφατα πλεονεκτήματα που αποδείχτηκε πως έχουν τα κατανεμημένα σημασιολογικά μοντέλα σύνθεσης (Compositional Distributional Semantic Models
(CDSMs) προτείνουμε ένα μοντέλο σύνθεσης για την εκτίμηση συναισθηματικών ετικετών για
τις τρεις διαστάσεις, ζευγαριών λέξεων που αποτελούνται από ένα επίθετο που ακολουθείται
από ένα ουσιαστικό (ΕΟ) ή από ουσιαστικό που ακολουθείται από ένα άλλο ουσιαστικό (ΟΟ).
Προτείνουμε πως όμοια με τη σημασιολογική τροποποίηση που παρατηρείται στα CDSMs είναι
δυνατό να συμβεί και συναισθηματική τροποποίηση, ειδικά όταν οι λέξεις που σχηματίζουν τα
ζευγάρια που εξετάζουμε είναι σχηματίζουν δομές τροποποιητή-κεφαλής. Το συναισθηματικό
περιεχόμενο του ζευγαριού καθορίζεται από την αλληλεπίδραση μεταξύ των δυο λέξεων, δηλαδή το συναισθηματικό περιεχόμενο της κεφαλής διαφοροποιείται κατά τρόπο που καθορίζεται
από τον τροποποιητή. Επιπροσθέτως, εξετάζουμε το συνδυασμό του προτεινόμενου μοντέλου
με τα σημασιολογικά-συναισθηματικά μοντέλα που προτείνονται στη βιβλιογραφία για λέξεις
και ζευγάρια λέξεων. Οι ετικέτες που υπολογίζονται από αυτό το μοντέλο αξιολογούνται με
βάση αντίστοιχες που έχουν προκύψει από ανθρώπους και η απόδοση εκτιμάται μετρώντας
τη μεταξύ τους συσχέτιση. Οι πιο ακριβείς εκτιμήσεις προκύπτουν συνδυάζοντας τα διάφορα
μοντέλα πετυχαίνοντας απόλυτη βελτίωση έως και 5% για ΟΟ ζευγάρια ή 4% για ΕΟ ζευγάρια.
Ερευνούμε επίσης μοντέλα για τη συναισθηματική ανάλυση προτάσεων που βασίζονται
κατά κύριο λόγο σε συναισθηματικά χαρακτηριστικά. Χρησιμοποιούμε διάφορα σύνολα δεδομένων που καλύπτουν αρκετές περιπτώσεις γραπτού λόγου όπως τίτλοι νέων, υπότιτλοι
ταινιών, ενημερώσεις καταστάσεων κοινωνικών δικτύων και καταγραφές ομιλούμενου λόγου.
Η καλύτερη απόδοση state-of-the-art επιτεύχθηκε για τη συναισθηματική ανάλυση ενημερώσεων καταστάσεων στο κοινωνικό δίκτυο Twitter (0.82 μέσο recall μεταξύ της θετικής και
της αρνητικής ομάδας).
Abstract
In this thesis we propose affective models for the affective analysis of lexical units in various granularity levels. We propose and evaluate the use of an affective-semantic model to expand the affective lexica of German, Greek, English, Spanish and Portuguese. Motivated by the assumption that semantic similarity implies affective similarity, we use word
level semantic similarity scores as semantic features to estimate their corresponding affective scores. Various context-based semantic similarity metrics are investigated using
contextual features that include both words and character n-grams. The model produces
continuous affective ratings in three dimensions (valence, arousal and dominance) for all five languages, achieving consistent performance. We achieve classification accuracy (valence polarity task) between 85% and 91% for all five languages. For morphologically
rich languages the proposed use of character n-grams is shown to improve performance.
Moreover, we created the first Greek affective lexicon, translating the words of the English
affective lexicon ANEW and assigning them to native speakers for affective annotation. It
contains human ratings for the three continuous affective dimensions of valence, arousal
and dominance for 1034 words.
Motivated by recent advances in the area of Compositional Distributional Semantic
Models (CDSMs), we propose a compositional approach for estimating continuous affective
ratings for adjective-noun (AN) and noun-noun (NN) pairs. The ratings are computed
for the three basic dimensions of continuous affective spaces, namely, valence, arousal and
dominance. We propose that similarly to the semantic modification that underlies CDSMs,
affective modification may occur within the framework of affective spaces, especially when
the constituent words of the linguistic structures under investigation form modifier-head
pairs (e.g., AN and NN). The affective content of the entire structure is determined from
the interaction between the respective constituents, i.e., the affect conveyed by the head
is altered by the modifier. In addition, we investigate the fusion of the proposed model
with the semantic-affective model proposed in literature applied both at word- and phrase
level. The automatically computed affective ratings were evaluated against human ratings
in terms of correlation. The most accurate estimates are achieved via fusion and absolute
performance improvement up to 5% and 4% is reported for NN and AN, respectively.
We also investigate text based models for the affective analysis of sentences that are
mainly based on affective features. We investigate various datasets including news headlines, movie subtitles, Twitter status updates and spoken dialogue transcriptions and the
best (state-of-the-art) performance was obtained for Twitter (0.82 average recall over positive and negative classes).
Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 145Π-58
Έναρξη: 11/07/2016 12:00
Λήξη: 11/07/2016 13:00