Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

11
Ιουλ

Παρουσίαση Μεταπτυχιακής Εργασίας κα. Χωριανοπούλου Αροδάμη - Σχολή ΗΜΜΥ
Κατηγορία: Παρουσίαση Μεταπτυχιακής Εργασίας   ΗΜΜΥ  
ΤοποθεσίαΛ - Κτίριο Επιστημών/ΗΜΜΥ, 145Π-58
Ώρα11/07/2016 13:00 - 14:00

Περιγραφή:
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Πρόγραμμα Μεταπτυχιακών Σπουδών ΠΑΡΟΥΣΙΑΣΗ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΑΡΟΔΑΜΗΣ ΧΩΡΙΑΝΟΠΟΥΛΟΥ με θέμα Affective Modeling on Spoken Dialogue Εξεταστική Επιτροπή Αναπληρωτής Καθηγητής Πολυχρόνης Κουτσάκης (επιβλέπων) Καθηγητής Ευριπίδης Πετράκης Αναπληρωτής Καθηγητής Αλέξανδρος Ποταμιάνος (Σχολή ΗΜΜΥ, ΕΜΠ) Περίληψη Τα συναισθήματα είναι βασικά χαρακτηριστικά στην επικοινωνία μεταξύ ανθρώπων, επηρεάζοντας την αντίληψη, την επικοινωνία και την λήψη αποφάσεων. Όλα τα παραπάνω εκφράζονται μέσω της ομιλίας, των εκφράσεων προσώπου, των χειρονομιών και άλλων μη λεκτικών ενδείξεων. Η ομιλία είναι το βασικότερο μέσω επικοινωνίας μεταξύ των ανθρώπων, ερμηνεύοντας συναισθηματικές και γνωσιακές ενδείξεις. Η υπολογιστική αναγνώριση συναισθήματος είναι η διαδικασία με την οποία αποκωδικοποιούνται τέτοια σήματα επικοινωνίας. Σκοπός είναι να βελτιώσει την επικοινωνία μεταξύ ανθρώπου και υπολογιστή σε επίπεδο αντίληψης, επιτρέποντας στον υπολογιστεί να προσαρμοστεί στις ανάγκες ενός χρήστη. Ως εκ τούτου, η αναγνώριση συναισθήματος μέσω φωνής υποθέτει ότι φωνητικές παράμετροι κατοπτρίζουν την συναισθηματική κατάσταση ενός ανθρώπου. Αυτή η υπόθεση υποστηρίζεται και από το γεγονός ότι οι συναισθηματικές καταστάσεις εμπλέκουν ψυχολογικές αντιδράσεις, οι οποίες με τη σειρά τους αλλάζουν τη διαδικασία παραγωγής της φωνής. Υπάρχει ένα μεγάλο εύρος εφαρμογών για την αναγνώριση συναισθήματος από φωνή, συμπεριλαμβάνοντας την αναγνώριση θυμού για διαλογικά συστήματα και τη συναισθηματική υποστήριξη/βοήθεια για άτομα με αυτισμό. Η προσοχή είναι μια έννοια που μελετάται στον κλάδο της γνωστικής ψυχολογίας και αναφέρεται στο πως ένας άνθρωπος ενεργά επεξεργάζεται την πληροφορία. Η σημαντικότητα είναι το επίπεδο στο οποίο κάτι από το περιβάλλον μπορεί να τραβήξει και να διατηρήσει την προσοχή ενός ανθρώπου. Ενώ ερευνητικά η συναισθηματική σημαντικότητα βάσει της φωνής δεν είναι εκτενής, η σημαντικότητα βάσει ήχου και εικόνας έχει ερευνηθεί. Υποστηρίζεται ότι η μοντελοποίηση της συναισθηματικής μεταβολής από τη φωνή μπορεί να προσεγγιθεί μέσω της ενσωμάτωσης ακουστικών παραμέτρων από διάφορα χρονικά πλαίσια της προσωδίας, συνοψίζοντας την πληροφορία από τοπικά (π.χ. συλλαβές) μέχρι πιο καθολικά φαινόμενα (π.χ. φράσεις). Σε αυτήν την εργασία, η προσωδία καθώς και άλλα ακουστικά χαρακτηριστικά, όπως χαρακτηριστικά του φάσματος και της ποιότητας της φωνής, ερευνώνται για την αναγνώριση συναισθήματος. Χαρακτηριστικά τα οποία προέρχονται από το Amplitude and Frequency Modulation (AM-FM) μοντέλο επίσης εξετάζονται. Ακόμα, απευθύνεται στη συμμετοχή διαφορετικών επιπέδων πληροφορίας για την αναγνώριση συναισθήματος. Επιπλέον, μελετήσαμε τη συναισθηματική σημαντικότητα της πληροφορίας στο χρόνο σε διαλογικές φράσεις χρησιμοποιώντας προσωδιακές μεταβολές από διαφορετικά χρονικά πλαίσια του σήματος φωνής, ζυγίζοντας τα συγκεκριμένα πλαίσια. Τα προτεινόμενα μοντέλα έχουν εκτιμηθεί σε σύνολα δεδομένων με αυθόρμητη ομιλία. Η κοινωνική και διανοητική κατάσταση ενός ανθρώπου είναι άμεσα συνδεδεμένα. Σαν αποτέλεσμα ο συναισθηματικός λόγος έχει εισαχθεί σε πολλές περιοχές της υπολογιστικής κοινότητας. Για παράδειγμα, άνθρωποι με αυτισμό υποφέρουν από συμπτώματα άγχους και κατάθλιψης που διακινδυνεύουν αρκετά την καθημερινή ζωή τους. Επιπλέον, η γλώσσα σε υψηλά επίπεδα αυτισμού χαρακτηρίζεται από πραγματιστικές και σημασιολογικές διαταραχές και άνθρωποι με αυτισμό έχουν μειωμένη ικανότητα να αφομοιώσουν πληροφορίες. Έχοντας ως κίνητρο τα παραπάνω ευρήματα, ερευνήσαμε το επίπεδο της συμμετοχής παιδιών με αυτισμό σε αλληλεπιδράσεις με τους γονείς τους. Abstract Emotions are fundamental for human-human communication, impacting people's perception, communication and decision-making. These are expressed through speech, facial expressions, gestures and other non-verbal cues. Speech is the main channel of human communication, interpreting emotional and semantic cues. Affective computing and specifically emotion recognition, is the process of decoding communication signals. It aims to improve the human-computer interaction (HCI) in a cognitive level allowing computers to adapt to the user’s needs. Hence, speech emotion recognition suggests that vocal parameters reflect the affective state of a person. This assumption is supported by the fact that most affective states involve physiological reactions which in turn modify the process by which voice is produced. There are a number of potential applications for speech emotion recognition, including anger detection for Spoken Dialogue Systems (SDS) and emotional aids for people with autism. Attention is a concept studied in cognitive psychology that refers to how a person actively processes information. Salience is the level to which something in the environment can catch and retain one's attention. While research on affective speech saliency is not extensive, salient information from audio and video has been investigated. It is argued that modeling the affective variation of speech can be approached by integrating acoustic parameters from various prosodic timescales, summarizing information from more localized (e.g. syllable-level) to more global prosodic phenomena (e.g. utterance-level). In this thesis, speech prosody and related acoustic features, e.g., spectral and voice quality, are investigated for the task of emotion recognition. Features derived from the Amplitude and Frequency Modulation (AM-FM) model are also examined. Moreover, the contribution of different information levels is also addressed for the task of emotion recognition. Additionally, we investigate the affective salient information over time on spoken dialogue utterances using prosodic variations from different timescales of the speech signal, by weighting speech segments. The proposed models are evaluated on datasets of spontaneous speech. For a human social and mental states are highly correlated. As a result affective speech is introduced on several areas of the computational community. For instance, people with Autism Spectrum Disorder (ASD) suffer from symptoms of anxiety and depression that significantly compromise their quality of life. Additionally, language in high-functioning autism is characterized by pragmatic and semantic deficits, and people with autism have a reduced tendency to integrate information. Motivated by these findings, we investigate the degree of engagement for children with ASD in interactions with their parents.
© Πολυτεχνείο Κρήτης 2012