Έμβλημα Πολυτεχνείου Κρήτης
Το Πολυτεχνείο Κρήτης στο Facebook  Το Πολυτεχνείο Κρήτης στο Instagram  Το Πολυτεχνείο Κρήτης στο Twitter  Το Πολυτεχνείο Κρήτης στο YouTube   Το Πολυτεχνείο Κρήτης στο Linkedin

Νέα / Ανακοινώσεις / Συζητήσεις

Παρουσίαση Διπλωματικής Εργασίας κας Κωνσταντίνας Μάμμου - Σχολή ΗΜΜΥ

  • Συντάχθηκε 16-12-2024 14:02 Πληροφορίες σύνταξης

    Ενημερώθηκε: 16-12-2024 14:08

    Τόπος:
    Σύνδεσμος τηλεδιάσκεψης
    Έναρξη: 18/12/2024 14:00
    Λήξη: 18/12/2024 15:00

     

    ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
    Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
    Πρόγραμμα Προπτυχιακών Σπουδών

    ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

    Κωνσταντίνας Μάμμου

    με θέμα

    Ένα Μοντέλο Πρόβλεψης Επικέντρωσης Βλέμματος για Περιβάλλοντα Εικονικής Πραγματικότητας Προσανατολισμένα σε Ενέργειες
    A Gaze Prediction Model for VR Task-Oriented Environments

    Εξεταστική Επιτροπή
    Καθηγήτρια Αικατερίνη Μανιά (επιβλέπουσα)
    Καθηγητής Μιχαήλ Ζερβάκης
    Επίκουρος Καθηγητής Νικόλαος Γιατράκος 

    Περίληψη
    Η πρόβλεψη βλέμματος στην Εικονική Πραγματικότητα (VR) έχει προσελκύσει σημαντικό ενδιαφέρον λόγω της δυνατότητάς της να ενισχύσει την αλληλεπίδραση του χρήστη και να βελτιστοποιήσει εφαρμογές VR, όπως την απόδοση γραφικών που βασίζεται στο βλέμμα. Η δυναμική και εμβυθιστική φύση των περιβαλλόντων VR παρουσιάζει μοναδικές προκλήσεις, ιδιαίτερα στην πρόβλεψη βλέμματος σε περιβάλλοντα με πολλές διεργασίες, σε σύγκριση με περιβάλλοντα ελεύθερης παρατήρησης ή στατικά περιβάλλοντα. Αυτή η διπλωματική εργασία προτείνει ένα μοντέλο για την πρόβλεψη βλέμματος σε τέτοια περιβάλλοντα, διερευνώντας τον ρόλο και την ικανότητα της χρονικής συνέχειας να επιτρέπει ακριβείς προβλέψεις. Το προτεινόμενο μοντέλο αποτελείται από τρία βασικά υποσυστήματα. Το υποσύστημα Ακολουθίας Εικόνων (ISM) χρησιμοποιεί επίπεδα ConvLSTM για να καταγράψει χρονικά χαρακτηριστικά κίνησης από ακολουθίες καρέ. Το υποσύστημα Ακολουθίας Βλέμματος (GSM) εφαρμόζει επίπεδα LSTM για να εξάγει χρονικά μοτίβα από δεδομένα βλέμματος. Οι έξοδοι αυτών των δύο υποσυστημάτων συνδυάζονται στο υποσύστημα Συνδυασμού (FM), η οποία ενσωματώνει πληροφορίες από τα ISM και GSM για την πρόβλεψη ενός σημείου βλέμματος. Το σύνολο δεδομένων OpenNEEDS, που παρέχει ποικίλα σενάρια VR και καταγραφές βλέμματος, χρησιμοποιήθηκε για την εκπαίδευση. Τα βήματα προεπεξεργασίας περιλάμβαναν την κανονικοποίηση καρέ και σημείων βλέμματος, τη μετατροπή 3D διανυσμάτων βλέμματος  σε 2D γωνίες θέασης, την αφαίρεση ακραίων τιμών και τη δημιουργία ακολουθιών για την προετοιμασία των δεδομένων για το μοντέλο. Το μοντέλο αξιολογήθηκε με μετρικές όπως το γωνιακό σφάλμα και ο δείκτης ανάκλησης, με το μοντέλο να υπερέχει σημαντικά έναντι βασικών μεθόδων σύγκρισης. Ωστόσο, ο χρόνος εκτέλεσης παραμένει περιοριστικός, υποδεικνύοντας την ανάγκη για βελτιστοποίηση για χρήση σε εφαρμογές πραγματικού χρόνου. Η εργασία μας συνεισφέρει ένα ακριβές, προσαρμοστικό και συνεπές μοντέλο για την πρόβλεψη βλέμματος σε περιβάλλοντα VR με έντονες διεργασίες, και αποδεικνύει την δυνατότητα αξιοποίησης της χρονικής συνέχειας για ακριβή πρόβλεψη βλέμματος.

    Abstract 
    Gaze prediction in Virtual Reality (VR) has attracted significant attention due to its potential to enhance user interaction and optimize VR applications, such as gaze-contingent rendering. The dynamic and immersive nature of VR environments presents unique challenges, especially in predicting gaze in task-oriented environments compared to free viewing or static ones. This thesis proposes a model for predicting gaze in such environments, investigating the role and ability of temporal continuity to enable accurate predictions. The proposed model is composed of three key modules. The Image Sequence Module (ISM) utilizes ConvLSTM layers to capture temporal motion features from sequences of frames, while the Gaze Sequence Module (GSM) employs LSTM layers to extract temporal patterns from gaze data. These outputs are combined in the Fusion Module, which integrates information from both ISM and GSM to predict a single gaze point. The OpenNEEDS dataset, offering diverse VR scenarios and gaze recordings, was used for training. Preprocessing steps included frame and gaze point normalization, conversion of 3D gaze vectors to 2D visual angles, outlier removal, and sequence creation to prepare the data for the model. The model was evaluated with metrics such as angular error and recall rate, with the model significantly outperforming baseline methods. However, the runtime performance remains a limitation, indicating the need for optimization for real-time applications. Our work contributes a robust, adaptable, consistent model for gaze prediction in task-oriented VR environments and demonstrates the potential of leveraging temporal continuity for accurate gaze prediction.

     

     

     


© Πολυτεχνείο Κρήτης 2012