URI | http://purl.tuc.gr/dl/dias/D8B64EEB-E5C8-4F7E-8147-A1C333F12E38 | - |
Identifier | https://doi.org/10.26233/heallink.tuc.101799 | - |
Language | en | - |
Extent | 106 pages | en |
Title | A Gaze Prediction Model for VR Task-Oriented Environments | en |
Title | Ένα μοντέλο πρόβλεψης επικέντρωσης βλέμματος για περιβάλλοντα εικονικής πραγματικότητας προσανατολισμένα σε ενέργειες | el |
Creator | Mammou Konstantina | en |
Creator | Μαμμου Κωνσταντινα | el |
Contributor [Thesis Supervisor] | Mania Aikaterini | en |
Contributor [Thesis Supervisor] | Μανια Αικατερινη | el |
Contributor [Committee Member] | Zervakis Michail | en |
Contributor [Committee Member] | Ζερβακης Μιχαηλ | el |
Contributor [Committee Member] | Giatrakos Nikolaos | en |
Contributor [Committee Member] | Γιατρακος Νικολαος | el |
Publisher | Πολυτεχνείο Κρήτης | el |
Publisher | Technical University of Crete | en |
Academic Unit | Technical University of Crete::School of Electrical and Computer Engineering | en |
Academic Unit | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Description | Διπλωματική Εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολυτεχνείου Κρήτης | el |
Content Summary | Gaze prediction in Virtual Reality (VR) has attracted significant attention due to its potential to enhance user interaction and optimize VR applications, such as gaze-contingent rendering. The dynamic and immersive nature of VR environments presents unique challenges, especially in predicting gaze in task-oriented environments compared to free viewing or static ones. This thesis proposes a model for predicting gaze in such environments, investigating the role and ability of temporal continuity to enable accurate predictions. The proposed model is composed of three key modules. The Image Sequence Module (ISM) utilizes ConvLSTM layers to capture temporal motion features from sequences of frames, while the Gaze Sequence Module (GSM) employs LSTM layers to extract temporal patterns from gaze data. These outputs are combined in the Fusion Module, which integrates information from both ISM and GSM to predict a single gaze point. The OpenNEEDS dataset, offering diverse VR scenarios and gaze recordings, was used for training. Preprocessing steps included frame and gaze point normalization, conversion of 3D gaze vectors to 2D visual angles, outlier removal, and sequence creation to prepare the data for the model. The model was evaluated with metrics such as angular error and recall rate, with the model significantly outperforming baseline methods. However, the runtime performance remains a limitation, indicating the need for optimization for real-time applications. Our work contributes a robust, adaptable, consistent model for gaze prediction in task-oriented VR environments and demonstrates the potential of leveraging temporal continuity for accurate gaze prediction. | en |
Content Summary | Η πρόβλεψη βλέμματος στην Εικονική Πραγματικότητα (VR) έχει προσελκύσει σημαντικό ενδιαφέρον λόγω της δυνατότητάς της να ενισχύσει την αλληλεπίδραση του χρήστη και να βελτιστοποιήσει εφαρμογές VR, όπως την απόδοση γραφικών που βασίζεται στο βλέμμα. Η δυναμική και εμβυθιστική φύση των περιβαλλόντων VR παρουσιάζει μοναδικές προκλήσεις, ιδιαίτερα στην πρόβλεψη βλέμματος σε περιβάλλοντα με πολλές διεργασίες, σε σύγκριση με περιβάλλοντα ελεύθερης παρατήρησης ή στατικά περιβάλλοντα. Αυτή η διπλωματική εργασία προτείνει ένα μοντέλο για την πρόβλεψη βλέμματος σε τέτοια περιβάλλοντα, διερευνώντας τον ρόλο και την ικανότητα της χρονικής συνέχειας να επιτρέπει ακριβείς προβλέψεις. Το προτεινόμενο μοντέλο αποτελείται από τρία βασικά υποσυστήματα. Το υποσύστημα Ακολουθίας Εικόνων (ISM) χρησιμοποιεί επίπεδα ConvLSTM για να καταγράψει χρονικά χαρακτηριστικά κίνησης από ακολουθίες καρέ. Το υποσύστημα Ακολουθίας Βλέμματος (GSM) εφαρμόζει επίπεδα LSTM για να εξάγει χρονικά μοτίβα από δεδομένα βλέμματος. Οι έξοδοι αυτών των δύο υποσυστημάτων συνδυάζονται στο υποσύστημα Συνδυασμού (FM), η οποία ενσωματώνει πληροφορίες από τα ISM και GSM για την πρόβλεψη ενός σημείου βλέμματος. Το σύνολο δεδομένων OpenNEEDS, που παρέχει ποικίλα σενάρια VR και καταγραφές βλέμματος, χρησιμοποιήθηκε για την εκπαίδευση. Τα βήματα προεπεξεργασίας περιλάμβαναν την κανονικοποίηση καρέ και σημείων βλέμματος, τη μετατροπή 3D διανυσμάτων βλέμματος σε 2D γωνίες θέασης, την αφαίρεση ακραίων τιμών και τη δημιουργία ακολουθιών για την προετοιμασία των δεδομένων για το μοντέλο. Το μοντέλο αξιολογήθηκε με μετρικές όπως το γωνιακό σφάλμα και ο δείκτης ανάκλησης, με το μοντέλο να υπερέχει σημαντικά έναντι βασικών μεθόδων σύγκρισης. Ωστόσο, ο χρόνος εκτέλεσης παραμένει περιοριστικός, υποδεικνύοντας την ανάγκη για βελτιστοποίηση για χρήση σε εφαρμογές πραγματικού χρόνου. Η εργασία μας συνεισφέρει ένα ακριβές, προσαρμοστικό και συνεπές μοντέλο για την πρόβλεψη βλέμματος σε περιβάλλοντα VR με έντονες διεργασίες, και αποδεικνύει την δυνατότητα αξιοποίησης της χρονικής συνέχειας για ακριβή πρόβλεψη βλέμματος. | el |
Type of Item | Διπλωματική Εργασία | el |
Type of Item | Diploma Work | en |
License | http://creativecommons.org/licenses/by/4.0/ | en |
Date of Item | 2024-12-19 | - |
Date of Publication | 2024 | - |
Subject | Virtual reality | en |
Subject | Deep learning | en |
Subject | Neural network | en |
Subject | Gaze prediction | en |
Bibliographic Citation | Konstantina Mammou, "A Gaze Prediction Model for VR Task-Oriented Environments", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2024 | en |
Bibliographic Citation | Κωνσταντίνα Μάμμου, "Ένα μοντέλο πρόβλεψης επικέντρωσης βλέμματος για περιβάλλοντα εικονικής πραγματικότητας προσανατολισμένα σε ενέργειες", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024 | el |