Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Ανακοίνωση παρουσίασης διπλωματικής εργασίας του κ. Χριστόπουλου Γεώργιου, ΗΜΜΥ

  • Συντάχθηκε 25-07-2011 14:26 από Galateia Malandraki Πληροφορίες σύνταξης

    Email συντάκτη: gmalandraki<στο>tuc.gr

    Ενημερώθηκε: -

    Ιδιότητα: υπάλληλος ΑΡΜΗΧ.

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    ΧΡΙΣΤΟΠΟΥΛΟΣ ΓΕΩΡΓΙΟΣ

    με θέμα

    “Γρήγορη, Παράλληλη Ομαδοποίηση ροής δεδομένων χρησιμοποιώντας το Hadoop Online Prototype”
    “Fast, Parallel Stream Clustering using Hadoop Online Prototype”

    Τρίτη 26 Αυγούστου 2011, 10π.μ.
    Αίθουσα 141.Α14-2, Εργαστήριο Ευφυών Συστημάτων, Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή

    Καθ. Μίνως Γαροφαλάκης (επιβλέπων)
    Επ. Καθ. Αντώνιος Δεληγιαννάκης
    Επ. Καθ. Μιχαήλ Λαγουδάκης


    Περίληψη

    Σε πραγματικά προβλήματα ερχόμαστε αντιμέτωποι σε πολυδιάστατα και σύνθετα δεδομένα, τα οποία μας δημιουργούν την ανάγκη να τα ταξινομήσουμε σε ομάδες σύμφωνα με κάποια κοινά χαρακτηριστικά που έχουν. Αυτή η διαδικασία, του να χωρίσουμε τα δεδομένα σε ομάδες λέγεται ομαδοποίηση. Ομαδοποίηση είναι η ανάθεση ενός συνόλου παρατηρήσεων σε υποσύνολα (τα οποία ονομάζονται ομάδες) έτσι ώστε οι παρατηρήσεις που ανήκουν στην ίδια ομάδα μοιάζουν κατά μία έννοια. Η ομαδοποίηση είναι μια μέθοδος εκπαίδευσης χωρίς επίβλεψη, καθώς και μια τεχνική για στατιστική ανάλυση δεδομένων που χρησιμοποιείται σε πολλά πεδία, συμπεριλαμβάνοντας την μηχανική εκμάθηση, την εξόρυξη δεδομένων, την αναγνώριση προτύπων, την ανάλυση εικόνας, την ανάκτηση πληροφοριών και της βιο-πληροφορικής. Επίσης, ένα σημαντικό πρόβλημα που μπορεί να αντιμετωπίσει κάποιος που ασχολείται με πραγματικά δεδομένα είναι ότι έχουν τεράστιο μέγεθος και αλλάζουν με την πάροδο του χρόνου. Σε αυτή την διπλωματική εργασία, παρουσιάζουμε δύο καινοτόμες σχεδιάσεις και υλοποιήσεις αλγορίθμων για ομαδοποίηση σε συνεχή ροή δεδομένα πάνω στο εξαιρετικά επεκτάσιμο πλαίσιο παραλληλοποίησης Map/Reduce, χρησιμοποιώντας την υλοποίηση ανοιχτού-λογισμικού Hadoop Online Prototype. Τα πειράματα μας έγιναν πάνω σε διάφορα μεγάλα και αληθινά δεδομένα στην ομάδα υπολογιστών του SoftNet, επαληθεύοντας την προσέγγιση μας.

    Abstract

    In real-world problems we are facing multi-dimensional and complex data that creates the need of classifying them into groups according to some common characteristics they have. This process of dividing data into groups is called clustering. Clustering is the assignment of a set of observations into subsets (called clusters) so that observations in the same cluster are similar in some sense. Clustering is a method of unsupervised learning, and a common technique for statistical data analysis used in many fields, including machine learning, data mining, pattern recognition, image analysis, information retrieval, and bioinformatics. Also, a serious problem that someone has to handle when works on real-world datasets is that they are massive and evolve over time. So, a motivation for our thesis was to work with efficiency on streams.
    In this thesis, we present the novel design and implementation of two stream clustering algorithms in the highly-scalable Map/Reduce parallel framework, using the Hadoop Online Prototype open-source implementation. Our experimental results with several large, real-life datasets on SoftNet’s HOP cluster verify the effectiveness of our approach.

    Συνημμένα:

© Πολυτεχνείο Κρήτης 2012