Συντάχθηκε 28-07-2022 13:26
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 29/07/2022 09:00
Λήξη: 29/07/2022 10:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Κωνσταντίνου Πουλάκη
με θέμα
Συστήματα Στατιστικής Διαχείρισης Διαλόγου - Statistical Dialogue Management Systems
Εξεταστική Επιτροπή
Καθ. Μιχαήλ Γ. Λαγουδάκης (ΗΜΜΥ)
Αν. Καθ. Γεώργιος Χαλκιαδάκης (ΗΜΜΥ)
Δρ. Βασίλειος Διακολουκάς (ΗΜΜΥ)
Περίληψη
Τα σύγχρονα στατιστικά συστήματα διαχείρισης διαλόγου (Statistical Dialogue Managers - SDM) έχουν σημειώσει σημαντική πρόοδο, προσφέροντας εύρωστη και αποδοτική αλληλεπίδραση ανθρώπου-μηχανής. Η πρόοδος αυτή βασίζεται τόσο στο μεγάλο πλήθος δεδομένων, όσο και στην ανάπτυξη καινοτόμων αλγορίθμων βασισμένων σε τεχνικές ενισχυτικής μάθησης. Η εκτεταμένη χρήση αυτών των συστημάτων σε πραγματικά συστήματα φωνητικού διαλόγου (Spoken Dialogue Systems – SDS) μπορεί να μειώσει το κόστος ανάπτυξης και συντήρησης και να αυξήσει την ανοχή των συστημάτων στην αβεβαιότητα που υπάρχει τόσο λόγω περιβάλλοντος, όσο και λόγω σφαλμάτων των υποσυστημάτων που χρησιμοποιούνται όπως του συστήματος αναγνώρισης ομιλίας (Automatic Speech Recognition – ASR) ή του συστήματος κατανόησης φυσικής γλώσσας (Natural Language Understanding – NLU). Ένα τέτοιο αβέβαιο περιβάλλον, στο οποίο η κάθε απόφαση για την κατάσταση διαλόγου γίνεται σειριακά με άμεση εξάρτηση από τις προηγούμενες αποφάσεις, ένα από τα καταλληλότερα μοντέλα που χρησιμοποιηθεί βασίζεται σε μερικώς παρατηρήσιμες διαδικασίες απόφασης Markov (Partially Observable Markov Decision Process – POMDP). Στην πράξη, το μεγάλο πλήθος των καταστάσεων και των ενεργειών στον διάλογο, αλλά και η διάσταση των παρατηρήσεων, κάνει υπολογιστικά αδύνατη την βελτιστοποίηση του μοντέλου. Ως εκ τούτου, η πρακτική εφαρμογή συστημάτων που βασίζονται σε POMDP απαιτεί την ανάπτυξη αποτελεσματικών αλγορίθμων και προσεγγίσεων. Στην παρούσα διπλωματική εργασία επιχειρούμε μια αναλυτική επισκόπηση των μεθόδων και τεχνικών που έχουν αναπτυχθεί για την δημιουργία SDM. Αρχικά, επικεντρωνόμαστε στα συστήματα που βασίζονται σε POMDPs και εξετάζουμε διαφορετικές μεθόδους αναπαράστασης του χώρου των καταστάσεων του διαλόγου που έχουν ως στόχο την μείωση του υπολογιστικού κόστους και την βελτίωση των αποτελεσμάτων. Ακολούθως, γίνεται σύγκριση διαφορετικών μεθόδων μάθησης, τόσο γραμμικών όσο και μη γραμμικών, βασισμένων σε βαθιά νευρωνικά δίκτυα. Τα αποτελέσματα από μια σειρά πειραμάτων που έχουν διεξαχθεί στο περιβάλλον PyDial με χρήση τεχνητών δεδομένων από προσομοιωτή δείχνουν ότι η τεχνολογία είναι πολλά υποσχόμενη.
Abstract
Modern Statistical Dialogue Managers (SDMs) have made significant strides in providing robust and efficient human-machine interaction. This progress is based both on the large amount of data and on the development of innovative algorithms based on augmented learning technique. Extensive use of these systems in real-world voice systems (Spoken Dialogue Systems (SDS)) can reduce development and maintenance costs and increase systems tolerance for uncertainty due to both environmental and subsystem errors used, such as Automatic Speech Recognition (ASR) or Natural Language Understanding (NLU). In such an uncertain environment in which each decision on the dialogue situation is made serially with direct dependence on previous decisions, one of the most appropriate models used is based on Partially Observable Markov Decision Process (POMDP). In practice, the large number of situations and actions in the dialogue, as well as the dimension of the observations, make it computationally impossible to optimize the model. Therefore, the practical implementation of POMDP-based systems requires the development of effective algorithms and approaches. In this diploma thesis, we attempt a detailed overview of the methods and techniques that have been developed to create SDM. We first focus on POMDPs-based systems and look at different methods of representing the dialog state space in order to reduce computational costs and improve results. Then, a comparison is made between different learning methods, both linear and non-linear based on deep neural networks. The results from a series of experiments conducted in the PyDial environment using artificial data from a simulator show that the technology is very promising.
Meeting ID: 96870186785
Password: 831725