Συντάχθηκε 03-07-2023 09:30
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 05/07/2023 14:00
Λήξη: 05/07/2023 15:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Εμμανουέλας Θεοδωράκη
με θέμα
Επιτάχυνση της Συναισθηματικής Ανάλυσης βασισμένη σε Λεξικό με Χρήση GPGPUs
Accelerating Dictionary-based Sentiment Analysis with GPGPUs
Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Σωτήριος Ιωαννίδης (επιβλέπων)
Καθηγητής Απόστολος Δόλλας
Καθηγητής Μιχαήλ Ζερβάκης
Περίληψη
Η ανάλυση συναισθήματος (Sentiment Analysis - SA), είναι μια τεχνική επεξεργασίας φυσικής γλώσσας (NLP) που αναγνωρίζει υποκειμενικές πληροφορίες, όπως απόψεις και συναισθήματα σε περιεχόμενο κειμένου. Η ραγδαία ανάπτυξη των μέσων κοινωνικής δικτύωσης και ο μεγάλος όγκος περιεχομένου που παράγεται από τους χρήστες τους, έχει οδηγήσει την επιστημονική κοινότητα να αφιερώσει σημαντικό ποσοστό της έρευνας στην ανάπτυξη αποτελεσματικών τεχνικών ανάλυσης για το πεδίο αυτό. Επιπλέον, η ανάλυση συναισθήματος έχει ευρεία εφαρμογή σε πολλούς τομείς, όπως στο brand intelligence και στην έρευνα αγοράς, στις πολιτικές καμπάνιες, στο spam detection, κ.ά. Ο στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη αλγορίθμων και εργαλείων που επιταχύνουν την ανάλυση συναισθήματος βασισμένη σε λεξικά χρησιμοποιώντας επεξεργαστές γενικού σκοπού (GPGPUs) και άλλους πολυπύρηνους επεξεργαστές. Για να το επιτύχουμε αυτό, σχεδιάζουμε και υλοποιούμε ένα σύστημα ανάλυσης συναισθήματος με παράλληλη επεξεργασία δεδομένων, το οποίο επεκτείνει υπάρχουσα μελέτη για παράλληλη αναζήτηση αλφαριθμητικών προτύπων, βασισμένη στον αλγόριθμο Aho-Corasick, χρησιμοποιώντας χιλιάδες blobs δεδομένων ως είσοδο, ταυτόχρονα. Το σύστημα αυτό, είναι ικανό να αναλύει μεγάλες ροές δεδομένων (π.χ. Twitter feeds) και να αναθέτει τα αντίστοιχα σκορ στο περιεχόμενο. Ακόμα, υλοποιούμε και επανασχεδιάζουμε τεχνικές SA που χρησιμοποιούνται σε δημοφιλή εργαλεία, όπως το Vader, με στόχο να παρέχουμε γρήγορα και ακριβή αποτελέσματα συναισθηματικής ανάλυσης. Επίσης, η κύρια μηχανή του συστήματός μας υλοποιείται με τη χρήση C/OpenCL, δίνοντας τη δυνατότητα να εκτελείται σε μεγάλη ποικιλία συσκευών,. Η απόδοση του συστήματός μας αξιολογείται χρησιμοποιώντας ένα μεγάλο σύνολο κειμένων από Twitter feeds τα οποία αναφέρονται στην πανδημία COVID-19. Τέλος, συγκρίνουμε την προσέγγιση μας για ανάλυση συναισθήματος με τις προηγμένες λύσεις που υπάρχουν στη βιβλιογραφία, χρησιμοποιώντας τόσο αναλύσεις συναισθήματος που βασίζονται σε λεξικά (Lexicon-based), όσο και σε μηχανική μάθηση (Machine Learning – ML) και διαπιστώνουμε ότι η πρότασή μας μπορεί να τις ξεπεράσει σε υπολογιστική ταχύτητα κατά πολλές τάξεις μεγέθους, διατηρώντας την ίδια ακρίβεια. Αυτή η εργασία, παρέχει ένα γρήγορο και ακριβές εργαλείο ανάλυσης συναισθήματος το οποίο μπορεί να εκτελείται σε κοινά συστήματα γενικής χρήσης χωρίς τροποποιήσεις. Καταλήγοντας, το σύστημά μας λειτουργεί είτε ως ένα αυτόνομο εργαλείο είτε ως μία βιβλιοθήκη που μπορεί να ενσωματωθεί σε άλλες εφαρμογές, επιτρέποντας στους χρήστες να αποκτήσουν αποτελέσματα ανάλυσης συναισθήματος σε σχεδόν πραγματικό χρόνο.
Abstract
Sentiment analysis is a natural language processing (NLP) technique that extracts subjective information such as opinions and emotions from textual content. The rapid growth of online social networks and the vast amount of content generated by their users has led the research community to dedicate a significant amount of study to the development of effective analysis techniques in this field. In addition, sentiment analysis has wide application in various areas, such as brand intelligence and market research, political campaigns, and spam detection, among others. The goal of this thesis is to develop the algorithms and tools that enable the acceleration of dictionary-based sentiment analysis using General Purpose Graphics Processing Units (GPGPUs) and other multi-core processors. To achieve this, we design and implement a data-parallel sentiment analysis system that extends previous literature on data-parallel pattern matchers, based on the Aho-Corasick algorithm, using thousands of data blobs as input, simultaneously. This system is able to analyze large feeds of data (e.g., Twitter feeds) and assign the respective scores to the content. Also, we re-design and implement sentiment analysis techniques found in popular tools, such as Vader, aiming to provide fast and accurate sentiment analysis results. We implement the core engine of our system using C/OpenCL, enabling it to execute on a large variety of devices and evaluate our system using a large corpus of Twitter feeds related to the COVID-19 pandemic. We compare our sentiment analysis tool against state-of-the-art solutions found in the literature, utilizing both lexicon-based sentiment analysis and machine learning and identify that our proposal can outperform them in computational speed by orders of magnitude while providing the same accuracy. This work provides a fast and accurate sentiment analysis tool that can execute on commodity systems without modifications, operating either as a stand-alone tool or as a library that can be embedded in other applications, allowing users to obtain sentiment analysis results in an almost real-time fashion.
Meeting ID: 990 5428 8406
Password: 462676