Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

A Gaze Prediction Model for VR Task-Oriented Environments

Mammou Konstantina

Simple record


URIhttp://purl.tuc.gr/dl/dias/D8B64EEB-E5C8-4F7E-8147-A1C333F12E38-
Identifierhttps://doi.org/10.26233/heallink.tuc.101799-
Languageen-
Extent106 pagesen
TitleA Gaze Prediction Model for VR Task-Oriented Environmentsen
TitleΈνα μοντέλο πρόβλεψης επικέντρωσης βλέμματος για περιβάλλοντα εικονικής πραγματικότητας προσανατολισμένα σε ενέργειεςel
CreatorMammou Konstantinaen
CreatorΜαμμου Κωνσταντιναel
Contributor [Thesis Supervisor]Mania Aikaterinien
Contributor [Thesis Supervisor]Μανια Αικατερινηel
Contributor [Committee Member]Zervakis Michailen
Contributor [Committee Member]Ζερβακης Μιχαηλel
Contributor [Committee Member]Giatrakos Nikolaosen
Contributor [Committee Member]Γιατρακος Νικολαοςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
DescriptionΔιπλωματική Εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολυτεχνείου Κρήτης el
Content SummaryGaze prediction in Virtual Reality (VR) has attracted significant attention due to its potential to enhance user interaction and optimize VR applications, such as gaze-contingent rendering. The dynamic and immersive nature of VR environments presents unique challenges, especially in predicting gaze in task-oriented environments compared to free viewing or static ones. This thesis proposes a model for predicting gaze in such environments, investigating the role and ability of temporal continuity to enable accurate predictions. The proposed model is composed of three key modules. The Image Sequence Module (ISM) utilizes ConvLSTM layers to capture temporal motion features from sequences of frames, while the Gaze Sequence Module (GSM) employs LSTM layers to extract temporal patterns from gaze data. These outputs are combined in the Fusion Module, which integrates information from both ISM and GSM to predict a single gaze point. The OpenNEEDS dataset, offering diverse VR scenarios and gaze recordings, was used for training. Preprocessing steps included frame and gaze point normalization, conversion of 3D gaze vectors to 2D visual angles, outlier removal, and sequence creation to prepare the data for the model. The model was evaluated with metrics such as angular error and recall rate, with the model significantly outperforming baseline methods. However, the runtime performance remains a limitation, indicating the need for optimization for real-time applications. Our work contributes a robust, adaptable, consistent model for gaze prediction in task-oriented VR environments and demonstrates the potential of leveraging temporal continuity for accurate gaze prediction.en
Content SummaryΗ πρόβλεψη βλέμματος στην Εικονική Πραγματικότητα (VR) έχει προσελκύσει σημαντικό ενδιαφέρον λόγω της δυνατότητάς της να ενισχύσει την αλληλεπίδραση του χρήστη και να βελτιστοποιήσει εφαρμογές VR, όπως την απόδοση γραφικών που βασίζεται στο βλέμμα. Η δυναμική και εμβυθιστική φύση των περιβαλλόντων VR παρουσιάζει μοναδικές προκλήσεις, ιδιαίτερα στην πρόβλεψη βλέμματος σε περιβάλλοντα με πολλές διεργασίες, σε σύγκριση με περιβάλλοντα ελεύθερης παρατήρησης ή στατικά περιβάλλοντα. Αυτή η διπλωματική εργασία προτείνει ένα μοντέλο για την πρόβλεψη βλέμματος σε τέτοια περιβάλλοντα, διερευνώντας τον ρόλο και την ικανότητα της χρονικής συνέχειας να επιτρέπει ακριβείς προβλέψεις. Το προτεινόμενο μοντέλο αποτελείται από τρία βασικά υποσυστήματα. Το υποσύστημα Ακολουθίας Εικόνων (ISM) χρησιμοποιεί επίπεδα ConvLSTM για να καταγράψει χρονικά χαρακτηριστικά κίνησης από ακολουθίες καρέ. Το υποσύστημα Ακολουθίας Βλέμματος (GSM) εφαρμόζει επίπεδα LSTM για να εξάγει χρονικά μοτίβα από δεδομένα βλέμματος. Οι έξοδοι αυτών των δύο υποσυστημάτων συνδυάζονται στο υποσύστημα Συνδυασμού (FM), η οποία ενσωματώνει πληροφορίες από τα ISM και GSM για την πρόβλεψη ενός σημείου βλέμματος. Το σύνολο δεδομένων OpenNEEDS, που παρέχει ποικίλα σενάρια VR και καταγραφές βλέμματος, χρησιμοποιήθηκε για την εκπαίδευση. Τα βήματα προεπεξεργασίας περιλάμβαναν την κανονικοποίηση καρέ και σημείων βλέμματος, τη μετατροπή 3D διανυσμάτων βλέμματος σε 2D γωνίες θέασης, την αφαίρεση ακραίων τιμών και τη δημιουργία ακολουθιών για την προετοιμασία των δεδομένων για το μοντέλο. Το μοντέλο αξιολογήθηκε με μετρικές όπως το γωνιακό σφάλμα και ο δείκτης ανάκλησης, με το μοντέλο να υπερέχει σημαντικά έναντι βασικών μεθόδων σύγκρισης. Ωστόσο, ο χρόνος εκτέλεσης παραμένει περιοριστικός, υποδεικνύοντας την ανάγκη για βελτιστοποίηση για χρήση σε εφαρμογές πραγματικού χρόνου. Η εργασία μας συνεισφέρει ένα ακριβές, προσαρμοστικό και συνεπές μοντέλο για την πρόβλεψη βλέμματος σε περιβάλλοντα VR με έντονες διεργασίες, και αποδεικνύει την δυνατότητα αξιοποίησης της χρονικής συνέχειας για ακριβή πρόβλεψη βλέμματος.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2024-12-19-
Date of Publication2024-
SubjectVirtual realityen
SubjectDeep learningen
SubjectNeural networken
SubjectGaze predictionen
Bibliographic CitationKonstantina Mammou, "A Gaze Prediction Model for VR Task-Oriented Environments", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2024en
Bibliographic CitationΚωνσταντίνα Μάμμου, "Ένα μοντέλο πρόβλεψης επικέντρωσης βλέμματος για περιβάλλοντα εικονικής πραγματικότητας προσανατολισμένα σε ενέργειες", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024el

Available Files

Services

Statistics