Συντάχθηκε 02-03-2016 08:02
από Esthir Gelasaki
Email συντάκτη: egelasaki<στο>tuc.gr
Ενημερώθηκε:
02-03-2016 08:23
Ιδιότητα: υπάλληλος.
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΔΗΜΗΤΡΙΟΥ ΤΖΙΜΑ
με θέμα
Επεξεργασία Δεδομένων του Twitter Σχετικά με Παρενέργειες Φαρμάκων
στο Κατανεμημένο Σύστημα Storm
Processing Twitter Data Regarding Drug Side Effects
on Storm Distributed System
Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Αντώνιος Δεληγιαννάκης (επιβλέπων)
Καθηγητής Μίνως Γαροφαλάκης
Αναπληρωτής Καθηγητής Πολυχρόνης Κουτσάκης
Περίληψη
Τα τελευταία χρόνια τα Social Media έχουν γίνει αναπόσπαστο κομμάτι της καθημερινότητας των ανθρώπων σε παγκόσμιο επίπεδο. Καθημερινά, όλο και περισσότεροι χρήστες αξιοποιούν τις πλατφόρμες αυτές για να εκφράσουν την άποψη τους για οτιδήποτε επιθυμούν. Αυτό έχει ως αποτέλεσμα να έχει δημιουργηθεί ένας τεράστιος όγκος πληροφορίας στο internet όπου είναι διαθέσιμος για επεξεργασία. Από τις διάφορες Πλατφόρμες Κοινωνικής Δικτύωσης που υπάρχουν, το Twitter αποτελεί μία από τις περισσότερο διαδεδομένες. Λόγω του γρήγορου και άμεσου χαρακτήρα της επικοινωνίας που προσφέρει, οι χρήστες του σχολιάζουν μέσω αυτού όλες τις κοινωνικές δραστηριότητες που συμβαίνουν. Μέσω της επεξεργασίας των δεδομένων που παράγονται στο Twitter, μπορούμε να καταγράψουμε τις αντιδράσεις των χρηστών για οτιδήποτε γεγονός συμβαίνει σε παγκόσμια κλίμακα.
Σε αυτήν την Διπλωματική Εργασία υλοποείται μία εφαρμογή όπου παρακολουθεί και επεξεργάζεται δεδομένα από το Twitter σε πραγματικό χρόνο. Πιο συγκεκριμένα, συλλέγουμε δεδομένα που αφορούνε αντιδράσεις των χρηστών σε σχέση με Παρενέργειες που δημιουργούνται από την χρήση Φαρμάκων. Στη συνέχεια τα δεδομένα αυτά κατηγοριοποιούνται ανάλογα με τη γνώμη που εκφράζουν(θετική, αρνητική ή ουδέτερη). Τέλος, αποθηκεύουμε όλες τις χρήσιμες πληροφορίες σε μία Βάση Δεδομένων ώστε να μπορούμε να τα έχουμε διαθέσιμα για επιπλέον επεξεργασία. Για να μπορέσουμε να κάνουμε την επεξεργασία σε πραγματικό χρόνο και να μπορούμε στο μέλλον να την επεκτείνουμε, χρησιμοποιήσαμε το κατανεμημένο σύστημα Storm. Στην τοπολογία που τρέχει στο Storm, κάναμε χρήση διαφόρων εργαλείων όπως το Twitter API, το Lingpipe καθώς και ένα Interface για να βλέπουμε τα περιεχόμενα στη Βάση Δεδομένων. Από τα δεδομένα που αποθηκεύσαμε προέκυψαν κάποια πρώτα συμπεράσματα τα οποία και παραθέτουμε.
Abstract
Over the past few years Social Media have become a major part of every person’s daily routine all around the world. Every day, more and more users are utilizing these platforms to express their opinions on whatever they wish. As a result, a huge amount of data is available on the Internet waiting for potential uses. Out of the many Social Media Platforms that exist, Twitter is one of the most wide spread. As it offers a fast and immediate way to communicate, users are commenting on almost every personal and public event. By processing that data, it is possible to document users’ reactions on whatever topic we wish.
This thesis’ subject is an application that observes and processes data from Twitter in real time. Specifically, we are gathering data on user reactions relating to side effects of drugs. These reactions are afterwards being tagged as positive, negative or neutral. Finaly, all usefull information extracted are exported to a Database, readily available for further processing. To achieve real time processing, and for future improvements to be possible, we used the distributed system Apache Storm. In the topology of Storm we used various tools, such as Twitter API, Lingpipe as well as an Interface to the Database. We are also presenting some first conclusions extracted from the datasets we tested on.
Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 2041
Έναρξη: 04/03/2016 10:30
Λήξη: 04/03/2016 11:30