Ηλεκτρονικές Υπηρεσίες

Ημερολόγιο Εκδηλώσεων

22
Δεκ

Παρουσίαση Διπλωματικής Εργασίας κας Μεριέμε Κατσάνι

Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας ΗΜΜΥ

Λ - Κτίριο Επιστημών/ΗΜΜΥ, 145Π-58

22/12/2017 12:00 - 13:00

Περιγραφή:
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Πρόγραμμα Προπτυχιακών Σπουδών ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΜΕΡΙΕΜΕ ΚΑΤΣΑΝΙ με θέμα Επεξεργασία Κειμένου σε Μεγάλη Κλίμακα κάνοντας χρήση του Apache Spark Scaling Text Processing Pipelines using Apache Spark Εξεταστική Επιτροπή Αναπληρωτής Καθηγητής Αντώνιος Δεληγιαννάκης (επιβλέπων) Καθηγητής Μίνως Γαροφαλάκης Αναπληρωτής Καθηγητής Μιχαήλ Λαγουδάκης Περίληψη Τα μεγάλα δεδομένα (big data) έχουν κατακλύσει όλους τους τομείς της σύγχρονης ζωής. Προερχόμενα από ανθρώπους ή μηχανές, ξεκινούν από τα μέσα κοινωνικής δικτύωσης και επεκτείνονται σε “έξυπνα κινητά” (smartphones) ή αισθητήρες, σε μορφή κειμένου, εικόνας ή συναλλαγών, τα μεγάλα δεδομένα αποτελούν ένα καθημερινώς εξελισσόμενο πεδίο. Όπως προκύπτει, η συνεχόμενη αύξηση δεδομένων που παράγονται δημιουργεί την ανάγκη για εξαγωγή γνώσης από αυτά, μέσω της ανάλυσής τους. Διάφοροι τομείς ασχολούνται με την εξόρυξη γνώσης (data mining), και πιο συγκεκριμένα ο τομέας της μηχανικής μάθησης (machine learning), ο οποίος έχει εδραιωθεί σημαντικά τα τελευταία χρόνια. Ποικίλες τεχνικές και μέθοδοι μηχανικής μάθησης προσπαθούν να επιλύσουν ζητήματα που πραγματεύονται τα μεγάλα δεδομένα και πλέον αυτοί οι δύο τομείς συνιστούν ένα αναπόσπαστο κομμάτι. Αυτός ο συγκεκριμένος συνδυασμός αποτελεί το κύριο αντικείμενο αυτής της μελέτης, η οποία έχει ως στόχο την υλοποίηση μιας αρχιτεκτονικής επεξεργασίας κειμένων σε μεγάλη κλίμακα. Πιο συγκεκριμένα, αυτή η αρχιτεκτονική επικεντρώνεται στην επεξεργασία ροών δεδομένων σε μορφή κειμένου σε πραγματικό χρόνο, οι οποίες προέρχονται από το Reddit και την ταξινόμηση αυτών ως σαρκαστικές ή μη σαρκαστικές μέσω ενός μοντέλου μηχανικής μάθησης. Η αρχιτεκτονική χρησιμοποιεί τις πιο νέες τεχνολογίες στον τομέα επεξεργασίας πληροφορίας με τη χρήση κατανεμημένων συστημάτων όπως είναι οι πλατφόρμες Apache Kafka και Spark αλλά και τελευταίας τεχνολογίας, καθώς και απλούς και ισχυρούς αλγόριθμους μηχανικής μάθησης όπως Random Forests, Naive Bayes και Logistic Regression. Αφού πραγματοποιηθεί σύγκριση της μεθοδολογίας και του σχεδιασμού κάθε επιμέρους κομματιού που απαρτίζει το τελικό σχεδιάγραμμα, γίνεται επιλογή του πιο κατάλληλου μοντέλου και ακολουθεί η υλοποίηση της δομής. Τα ποσοστά επιτυχίας που προέκυψαν ήταν αρκετά κοντά στη σχετική βιβλιογραφία και μερικές φορές υψηλότερα, ανάλογα με την εκάστοτε τεχνική που εξετάζεται. Τελικά, τα αποτελέσματα ευρετηριοποιούνται στην κατανεμημένη μηχανή αναζήτησης Elasticsearch και αξιολογούνται μέσω του Kibana plugin. Abstract Big data has overwhelmed all areas of modern life. Derived from humans or machines, starting with social media and extending to smartphones or sensors, in forms of texts, images or transactions, big data consists a day evolving field. Thus, the continuous increase of data generated creates a need for knowledge extraction from it, through data analysis. Several areas are engaged in data mining, and in particular the area of machine learning which has been well established over the past years. Various techniques and methods of machine learning are trying to solve big data problems and these two areas consist now an integral part. This particular combination is the main subject of this study, which aims to implement a large-scale text processing architecture. More specifically, this architecture focuses on processing streaming texts derived from Reddit in real-time and the classification thereof as sarcastic or non-sarcastic through a machine learning model. The architecture uses the latest technologies in the field of information processing through distributed platforms such as Apache Kafka and Spark as well as state-of-the-art but also simple and powerful ML algorithms, i.e Random Forests, Naive Bayes and Logistic Regression. After comparing the methodology and design of each individual piece forming the final layout, a selection of the most appropriate model is made followed by the implementation of the framework. Success rates exported were quite close to the relevant literature and sometimes higher, depending on each technique examined. Finally, results are indexed in the distributed search engine Elasticsearch and are evaluated through the Kibana plugin.

Προσθήκη στο ημερολόγιό μου