Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση Διπλωματικής Εργασίας κας Καμπιώτη Σοφίας - Σχολή ΗΜΜΥ

  • Συντάχθηκε 17-08-2020 08:40 Πληροφορίες σύνταξης

    Ενημερώθηκε: -

    Τόπος: Η παρουσίαση θα γίνει με τηλεδιάσκεψη
    Σύνδεσμος τηλεδιάσκεψης
    Έναρξη: 18/08/2020 10:00
    Λήξη: 18/08/2020 11:00

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
    ΚΑΜΠΙΩΤΗ ΣΟΦΙΑ

    θέμα
    Γεωμετρική Προσέγγιση Κατανεμημένης Κατηγοριοποίησης με Χρήση Μηχανών Υποστηρικτικών Διανυσμάτων
    A Functional Geometric Approach to Distributed Support Vector Machine(SVM) Classification

    Εξεταστική Επιτροπή
    Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς (επιβλέπων)
    Καθηγητής Μίνως Γαροφαλάκης 
    Αναπληρωτής Καθηγητής Αντώνιος Δεληγιαννάκης 

    Περίληψη
    Ζούμε σε ένα περιβάλλον όπου οι πληροφορίες ρέουν ακατάπαυστα και με το πέρασμα των χρόνων το περιβάλλον μας διέπεται ολοένα και περισσότερο από δεδομένα, δημιουργώντας έτσι την ανάγκη για την κατασκευή καλύτερων μοντέλων για την διαχείριση τους. Η επανάσταση στον τομέα της ανάλυσης δεδομένων έχει ήδη ξεκινήσει με την χρήση machine learning αλγορίθμων. Οι Support Vector Machine (SVM) αλγόριθμοι είναι μια κατηγορία δημοφιλών machine learning αλγορίθμων, με μεγάλη προσαρμοστικότητα και πολλαπλές περιπτώσεις χρήσης καθώς έχουν την ικανότητα να εντοπίζουν πολύπλοκες συσχετίσεις μεταξύ δεδομένων χωρίς υψηλή υπολογιστική πολυπλοκότητα. Σε αυτήν την εργασία μελετήθηκε το πρόβλημα του υψηλού κόστους επικοινωνίας που παρατηρείται στην περίπτωση που τα δεδομένα παράγονται σε απομακρυσμένες πηγές και συλλέγονται σε μια μόνο δομή για την επεξεργασία τους. Τα τελευταία χρόνια έχουν γίνει αξιόλογες προσπάθειες ώστε να επιτευχθεί παραλληλισμός στην διαδικασία εκπαίδευσης machine learning αλγορίθμων ώστε να αποφευχθεί η συγκέντρωση όλων των δεδομένων σε μια κεντρική δομή. Η εργασία αυτή προτείνει σαν ενδεχόμενη λύση την χρήση του Functional Geometric Monitoring (FGM) πρωτοκόλλου επικοινωνίας, που χρησιμοποιείται για την παρακολούθηση μεγάλου όγκου δεδομένων σε κατανεμημένο σύστημα, ώστε να μειωθεί το κόστος επικοινωνίας. Βασικός στόχος είναι να επιτύχουμε σφάλμα πρόβλεψης αντίστοιχο αυτού ενός κεντρικοποιημένου SVM αλγορίθμου αλλά σε κατανεμημένο σύστημα με ελαχιστοποιημένη επικοινωνία μεταξύ κόμβων. Ταυτόχρονα αποδείχθηκε ότι η sklearn βιβλιοθήκη της python που χρησιμοποιείται για κεντρικοποιημένη υλοποίηση machine learning αλγορίθμου μπορεί να αποδώσει εξίσου καλά σε μια κατανεμημένη δομή με χρήση της βιβλιοθήκης Dask και να επιτευχθεί σημαντική επιτάχυνση στην διαδικασία εκπαίδευσης του αλγορίθμου.           

    Abstract
    We live in the information age, and with every passing year, our environment becomes more and more heavily defined by data, leading to a major need for better decision-making models. The breakthroughs in data analytics have already seen through machine learning. Support vector machines (SVM) are a popular, adaptive, multipurpose machine learning algorithm with the ability to capture complex relationships between data points without having to perform difficult transformations. We study the problem of prohibitive communication costs that a centralized architecture implies if most of the data is generated or received on different remote machines. The past few years notable efforts have been made to achieve parallelism on the training procedure of machine learning models. We propose the use of Functional Geometric Monitoring (FGM) communication protocol which is used to monitor high-volume, rapid distributed streams to decrease the communication cost on a distributed SVM architecture. Our main goal is both to achieve centralized-like prediction loss and to minimize communication costs. In our proposal, the sklearn library, for centralized machine learning, is used in a distributed manner, with the use of Dask library, resulting in a notable speedup for the training procedure.

     

    Meeting ID: 763 809 3703
    Password: 970555



© Πολυτεχνείο Κρήτης 2012