Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

13
Δεκ

Παρουσίαση διπλωματικής εργασίας κ. Ψαράκη Κυριάκου - Σχολή ΗΜΜΥ
Κατηγορία: Παρουσίαση Διπλωματικής Εργασίας   ΗΜΜΥ  
ΤοποθεσίαΛ - Κτίριο Επιστημών/ΗΜΜΥ, 137Π-39,-38
Ώρα13/12/2017 12:00 - 13:00

Περιγραφή:
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Πρόγραμμα Προπτυχιακών Σπουδών ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΚΥΡΙΑΚΟΥ ΨΑΡΑΚΗ με θέμα Ανίχνευση Δεδομένων Άτυπης Συμπεριφοράς με το Σύστημα Spark Streaming Outlier Detection using Spark Streaming Εξεταστική Επιτροπή Αναπληρωτής Καθηγητής Αντώνιος Δεληγιαννάκης (επιβλέπων) Καθηγητής Μίνως Γαροφαλάκης Αναπληρωτής Καθηγητής Μιχαήλ Λαγουδάκης Περίληψη Στις μέρες μας δεδομένα δημιουργούνται συνεχώς από μια πληθώρα πηγών όπως μηχανήματα, την κίνηση στο διαδίκτυο, δίκτυα αισθητήρων και πολλές άλλες. Η έγκαιρη και εύστοχη ανίχνευση δεδομένων άτυπης συμπεριφοράς πάνω σε ροές δεδομένων είναι πολύ σημαντική σε ένα μεγάλο σύνολο εφαρμογών όπως για παράδειγμα, στην αποτροπή μηχανικών βλαβών, ανίχνευση κυβερνοεπιθέσεων και οικονομικών απατών. Σε αυτήν την εργασία υλοποιούμε ένα αλγόριθμο ανίχνευσης δεδομένων άτυπης συμπεριφοράς με την χρήση του εργαλείου του Spark Streaming, ο οποίος, κάνει ένα πέρασμα πάνω από τα δεδομένα ενώ χρησιμοποιεί περιορισμένη μνήμη. Επιλέξαμε το εργαλείο του Spark Streaming επειδή μας προσφέρει κλιμακώσιμη, υψηλής απόδοσης, χωρίς σφάλματα επεξεργασία της ροής δεδομένων μας. Ο αλγόριθμος προσαρμόζει ιδέες από σκιαγράφηση πινάκων έτσι ώστε να κρατάει κάποια ορθογώνια διανύσματα τα οποία απεικονίζουν μια καλή προσεγγιστική βάση για όλα τα προηγούμενα δεδομένα μας. Χρησιμοποιώντας αυτήν την ορθογώνια βάση οι τιμές άτυπης συμπεριφοράς ανιχνεύονται με βάση το σφάλμα μιας απλής μεθόδου ανοικοδόμησης. Επιπλέον, υλοποιήσαμε δυο μεθόδους για την ενημέρωση των ορθογώνιων διανυσμάτων, μια ντετερμινιστική και μια τυχαιοποιημένη για να επιταχύνουμε περαιτέρω τον αλγόριθμο μας με ένα μικρό κόστος στην ευστοχία. Abstract Data is continuously being generated from sources such as machines, network traffic, sensor networks, etc. Timely and accurate detection of outliers in massive data streams has important applications such as in preventing machine failures, intrusion detection, and financial fraud detection. In this thesis, we implement an outlier detection algorithm inside the Spark Streaming environment that, makes only one pass over the data while utilizing limited storage. We chose the Spark Streaming environment because it offers scalable, high-throughput, fault-tolerant stream processing of live data streams. The algorithm adapts ideas from matrix sketching to maintain a set of few orthogonal vectors that form a good approximate basis for all the observed data. Using this constructed orthogonal basis, outliers in new incoming data are detected based on a simple reconstruction error test. Additionally, we have implemented two methods for updating the orthogonal vectors one deterministic and one randomized to further speedup the algorithm with a small cost to accuracy.
© Πολυτεχνείο Κρήτης 2012