Συντάχθηκε 11-02-2025 07:44
Τόπος:
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 13/02/2025 10:00
Λήξη: 13/02/2025 11:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Δημητρίου Πέτρου
με θέμα
Συνεχής αποθήκευση και διαλειτουργικότητα συνόψεων στο Synopses Data Engine: Eνσωμάτωση σε Λίμνες Γνώσης
Persistency and Interoperability in Synopses Data Engine: Integration into Knowledge Lakes
Εξεταστική Επιτροπή
Αναπληρωτής Καθηγητής Βασίλειος Σαμολαδάς (επιβλέπων)
Καθηγητής Αντώνιος Δεληγιαννάκης
Επίκουρος Καθηγητής Νικόλαος Γιατράκος
Περίληψη
Στην εποχή των μεγάλων δεδομένων, όπου η παραγωγή πληροφοριών σε πραγματικό χρόνο έχει αυξηθεί σε πρωτοφανή επίπεδα, η ικανότητα επεξεργασίας, ανάλυσης και εξαγωγής χρήσιμων συμπερασμάτων με αποτελεσματικό τρόπο θεωρείται απαραίτητη σε πολλές περιπτώσεις χρήσης. Το stream summarization έχει αναδειχθεί ως μια καινοτόμος τεχνική για την αντιμετώπιση αυτής της πρόκλησης, επιτρέποντας τη δημιουργία συμπαγών, αλλά ταυτόχρονα πλούσιων σε πληροφορία, αναπαραστάσεων ροών δεδομένων (data streams), που αποκαλούνται συνόψεις, καταργώντας έτσι την ανάγκη αποθήκευσης τεράστιων όγκων πρωτογενών δεδομένων με σκοπό την μελλοντική επεξεργασία. Μια εξέχουσα προσπάθεια που έχει εκπονηθεί σε αυτό τον τομέα είναι το Synopses Data Engine (SDE), ένα προηγμένο εργαλείο το οποίο ενσωματώνει τεχνικές αιχμής συνδυάζοντας τις συνόψεις με το ευέλικτο περιβάλλον του Apache Flink, παρέχει στον τελικό χρήστη το stream summarization υπό την μορφή υπηρεσίας λογισμικού (SaaS). Το SDE έχει επιβεβαιώσει την αξία του σε οικοσυστήματα μεγάλων δεδομένων στο παρελθόν, ωστόσο η εφαρμογή του σε περιβάλλοντα που προσανατολίζονται στην δημιουργία γνώσης εισάγει νέες απαιτήσεις. Στην εγγενή τους μορφή, οι συνόψεις έχουν μικρό προσδόκιμο ζωής. Η διάρκειά τους εξαρτάται από τον χρόνο εκτέλεσης της διεργασίας που τις δημιούργησε στη μνήμη ενός υπολογιστικού συστήματος. Στο πλαίσιο μιας Λίμνης Γνώσης, όπου τα μακροπρόθεσμα στατιστικά και η διαχρονική διαθεσιμότητα των δεδομένων, είναι ουσιώδους σημασίας, η αδυναμία διατήρησης και επανεξέτασης προηγούμενων καταστάσεων της πληροφορίας θέτει σοβαρούς περιορισμούς. Στόχος αυτής της διπλωματικής εργασίας, είναι να γεφυρώσει αυτό το κενό, επεκτείνοντας τις δυνατότητες του SDE ώστε να ενσωματώνει συνεχή αποθήκευση και ανάκληση συνόψεων μέσω ενός ευέλικτου μηχανισμού δημιουργίας στιγμιοτύπων. Οι συνόψεις έτσι, αποκτούν μακροπρόθεσμο χαρακτήρα ενώ η νέα λειτουργικότητα εγγυάται για τα αρχικά χαρακτηριστικά απόδοσης του SDE. Επιπλέον, η δουλειά αυτή, αναπτύσσει το Streaming API του SDE προκειμένου να παρέχει ευρύτερη παρατηρησιμότητα στην εσωτερική του κατάσταση , επιτρέποντας την εξαγωγή μεταδεδομένων προς τρίτα οικοσύστημα λογισμικού. Το STELAR KLMS (Knowledge Lake Management System) λειτουργεί ως πεδίο εφαρμογής αυτής της εργασίας, όπου το SDE ενσωματώνεται για την επεξεργασία real-time αγροδιατροφικών δεδομένων με σκοπό την καθοδήγηση παρεμβάσεων στην γεωργία ακριβείας.
Abstract
In the era of big data where real-time information is generated at an unprecedented scale, the ability to process, analyze, and extract actionable insights efficiently is considered a requirement in many use cases. Stream summarization has emerged as novel technique when it comes to addressing this, enabling the creation of compact, yet informative, representations of
continuous data streams, termed Synopses, eliminating the need of storing vast amounts of raw data for future processing. A prominent effort conducted in this sector, is the Synopses Data Engine (SDE), an advanced framework that integrates state-of-the-art stream summarization techniques with the high-performance capabilities of Apache Flink, eventually forming an interactive summarization service at a scale. While SDE has proven its merit in big data ecosystems, its application within knowledge-driven environments introduces new requirements. In their native form, Synopses are volatile with their lifespan depending on the runtime of the engine. However, in the context of Knowledge Lakes, where long-term insights and temporal analytics are essential, the inability to retain and revisit previous states introduces a significant limitation. This thesis aims to bridge this gap by extending the capabilities of SDE to incorporate persistency and a versatile snapshot mechanism, allowing for the long-term storage and retrieval of Synopses by respecting SDE's indigenous key features. Furthermore, the work expands the Streaming API of SDE to provide broader observability into the internal state of the engine, allowing metadata to be extracted towards outer data analytics ecosystems. The STELAR KLMS (Knowledge Lake Management System) serves as the domain of application for this Thesis, where SDE is integrated to process real-time meteorological data for precision farming interventions.
Meeting ID: 938 7133 9823
Password: 899669