Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Ανακοίνωση παρουσίασης διπλωματικής εργασίας του κ. Παπαγεωργίου Λάμπρου, ΗΜΜΥ

  • Συντάχθηκε 25-07-2011 14:24 από Galateia Malandraki Πληροφορίες σύνταξης

    Email συντάκτη: gmalandraki<στο>tuc.gr

    Ενημερώθηκε: -

    Ιδιότητα: υπάλληλος ΑΡΜΗΧ.

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    Παπαγεωργίου Λάμπρος

    με θέμα

    “Επεξεργασία Προέλευσης Δεδομένων σε Δίκτυα Αβέβαιων Τελεστών”
    “Lineage Processing in Uncertain Operator Pipelines”

    Τρίτη 26 Ιουλίου 2011, 11π.μ
    Αίθουσα 141.A14-2, Εργαστήριο Ευφυών Συστημάτων, Κτίριο Επιστημών, Πολυτεχνειούπολη

    Εξεταστική Επιτροπή

    Καθηγητής Μίνως Γαροφαλάκης (επιβλέπων)
    Επ. Καθ. Μιχαήλ Λαγουδάκης
    Επ. Καθ. Αντώνιος Δεληγιαννάκης



    Περίληψη

    Η χρήση δικτύων από τελεστές για τη διαχείριση δεδομένων τα οποία προέρχονται από εξόρυξη στο διαδίκτυο είναι μία τυπική στρατηγική για τις περισσότερες πλατφόρμες διαχείρισης δεδομένων από κοινότητες χρηστών. Συνήθως, τα αποτελέσματα εξόρυξης δεδομένων από το διαδίκτυο είναι εγγενώς αβέβαια. Εισάγοντας τελεστές από την κοινότητα της Μηχανικής Μάθησης σε τέτοια δίκτυα βοηθά την πλατφόρμα ώστε να προσαρμοστεί σε διάφορα πεδία και να βελτιώσει την απόδοσή της με την πάροδο του χρόνου, όμως εισάγει μία ακόμη πηγή αβεβαιότητας: τους αβέβαιους τελεστές.
    Στην παρούσα εργασία προτείνουμε μία μέθοδο η οποία χρησιμοποιεί την πληροφορία της προέλευσης των δεδομένων εξόδου με σκοπό να ποσοτικοποιήσουμε την επίδραση όχι μόνο των δεδομένων εισόδου, αλλά και των ενδιάμεσων αβέβαιων τελεστών στα αποτελέσματα εξόδου.
    Επιπροσθέτως, αναπτύξαμε ακριβείς όπως και προσεγγιστικές τεχνικές για την αποδοτική επιδιόρθωση δικτύων τα οποία δομούνται από αβέβαιους τελεστές, επιστρέφοντας μόνο ένα μικρό σύνολο τελεστών, οι οποίοι όταν βελτιωθούν, θα βελτιώσουν επίσης και την ποιότητα των τελικών αποτελεσμάτων.
    Οι ορισμοί και η μεθοδολογία μας γενικεύουν τον ορισμό της επίδρασης που έχει δοθεί από τους Re και Suciu, επεκτείνοντάς τον ώστε να εφαρμόζεται σε δίκτυα αβέβαιων τελεστών.
    Η προσέγγισή μας υλοποιήθηκε σαν μια επέκταση της PostgreSQL και δοκιμάστηκε σε διάφορα δίκτυα τελεστών.
    Τα πειραματικά αποτελέσματα επιβεβαιώνουν πως η προσέγγισή μας εντοπίζει επιτυχώς τους top-k τελεστές με τη μεγαλύτερη επίδραση σε ένα δίκτυο εξόρυξης δεδομένων και παρέχει υψηλής ποιότητας αποτελέσματα σε σύγκριση με άλλες μεθόδους, ενώ διατηρεί μικρό κόστος.







    Abstract

    The use of pipelined operators to manage data coming from web extraction tasks is a typical strategy in most Community Information Management (CIM) platforms. Commonly, web extraction results are inherently uncertain. Incorporating operators coming from the Machine Learning community in such pipelines would help the platform adapt to various domains and improve over time; however, it also adds another source of uncertainty: the intermediate uncertain operators themselves.
    In this work, we propose a method which uses the lineage of the returned results in order to quantify the influence of not only the input data, but also the influence of the uncertain intermediate operators to the returned results.
    Moreover, we have developed exact as well as approximate techniques to efficiently repair pipelines populated with uncertain operators by returning a small fraction of the operators which, when refined, would improve the pipeline results.
    Our definitions and methodology generalize the influence definition of Re and Suciu, extending it to apply to pipelines populated with uncertain operators.
    Furthermore, we have implemented our approach as an extension to PostgreSQL and tested it on various pipelines.
    Our experimental results have shown that our approach successfully identifies the top-k influential operators of an extraction pipeline, and provides high quality results compared to other approaches, while maintaining low cost.

    Συνημμένα:

© Πολυτεχνείο Κρήτης 2012