A Gaze Prediction Model for VR Task-Oriented Environments

Mammou Konstantina

URI	http://purl.tuc.gr/dl/dias/D8B64EEB-E5C8-4F7E-8147-A1C333F12E38	-
Identifier	https://doi.org/10.26233/heallink.tuc.101799	-
Language	en	-
Extent	106 pages	en
Title	A Gaze Prediction Model for VR Task-Oriented Environments	en
Title	Ένα μοντέλο πρόβλεψης επικέντρωσης βλέμματος για περιβάλλοντα εικονικής πραγματικότητας προσανατολισμένα σε ενέργειες	el
Creator	Mammou Konstantina	en
Creator	Μαμμου Κωνσταντινα	el
Contributor [Thesis Supervisor]	Mania Aikaterini	en
Contributor [Thesis Supervisor]	Μανια Αικατερινη	el
Contributor [Committee Member]	Zervakis Michail	en
Contributor [Committee Member]	Ζερβακης Μιχαηλ	el
Contributor [Committee Member]	Giatrakos Nikolaos	en
Contributor [Committee Member]	Γιατρακος Νικολαος	el
Publisher	Πολυτεχνείο Κρήτης	el
Publisher	Technical University of Crete	en
Academic Unit	Technical University of Crete::School of Electrical and Computer Engineering	en
Academic Unit	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Description	Διπλωματική Εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολυτεχνείου Κρήτης	el
Content Summary	Gaze prediction in Virtual Reality (VR) has attracted significant attention due to its potential to enhance user interaction and optimize VR applications, such as gaze-contingent rendering. The dynamic and immersive nature of VR environments presents unique challenges, especially in predicting gaze in task-oriented environments compared to free viewing or static ones. This thesis proposes a model for predicting gaze in such environments, investigating the role and ability of temporal continuity to enable accurate predictions. The proposed model is composed of three key modules. The Image Sequence Module (ISM) utilizes ConvLSTM layers to capture temporal motion features from sequences of frames, while the Gaze Sequence Module (GSM) employs LSTM layers to extract temporal patterns from gaze data. These outputs are combined in the Fusion Module, which integrates information from both ISM and GSM to predict a single gaze point. The OpenNEEDS dataset, offering diverse VR scenarios and gaze recordings, was used for training. Preprocessing steps included frame and gaze point normalization, conversion of 3D gaze vectors to 2D visual angles, outlier removal, and sequence creation to prepare the data for the model. The model was evaluated with metrics such as angular error and recall rate, with the model significantly outperforming baseline methods. However, the runtime performance remains a limitation, indicating the need for optimization for real-time applications. Our work contributes a robust, adaptable, consistent model for gaze prediction in task-oriented VR environments and demonstrates the potential of leveraging temporal continuity for accurate gaze prediction.	en
Content Summary	Η πρόβλεψη βλέμματος στην Εικονική Πραγματικότητα (VR) έχει προσελκύσει σημαντικό ενδιαφέρον λόγω της δυνατότητάς της να ενισχύσει την αλληλεπίδραση του χρήστη και να βελτιστοποιήσει εφαρμογές VR, όπως την απόδοση γραφικών που βασίζεται στο βλέμμα. Η δυναμική και εμβυθιστική φύση των περιβαλλόντων VR παρουσιάζει μοναδικές προκλήσεις, ιδιαίτερα στην πρόβλεψη βλέμματος σε περιβάλλοντα με πολλές διεργασίες, σε σύγκριση με περιβάλλοντα ελεύθερης παρατήρησης ή στατικά περιβάλλοντα. Αυτή η διπλωματική εργασία προτείνει ένα μοντέλο για την πρόβλεψη βλέμματος σε τέτοια περιβάλλοντα, διερευνώντας τον ρόλο και την ικανότητα της χρονικής συνέχειας να επιτρέπει ακριβείς προβλέψεις. Το προτεινόμενο μοντέλο αποτελείται από τρία βασικά υποσυστήματα. Το υποσύστημα Ακολουθίας Εικόνων (ISM) χρησιμοποιεί επίπεδα ConvLSTM για να καταγράψει χρονικά χαρακτηριστικά κίνησης από ακολουθίες καρέ. Το υποσύστημα Ακολουθίας Βλέμματος (GSM) εφαρμόζει επίπεδα LSTM για να εξάγει χρονικά μοτίβα από δεδομένα βλέμματος. Οι έξοδοι αυτών των δύο υποσυστημάτων συνδυάζονται στο υποσύστημα Συνδυασμού (FM), η οποία ενσωματώνει πληροφορίες από τα ISM και GSM για την πρόβλεψη ενός σημείου βλέμματος. Το σύνολο δεδομένων OpenNEEDS, που παρέχει ποικίλα σενάρια VR και καταγραφές βλέμματος, χρησιμοποιήθηκε για την εκπαίδευση. Τα βήματα προεπεξεργασίας περιλάμβαναν την κανονικοποίηση καρέ και σημείων βλέμματος, τη μετατροπή 3D διανυσμάτων βλέμματος σε 2D γωνίες θέασης, την αφαίρεση ακραίων τιμών και τη δημιουργία ακολουθιών για την προετοιμασία των δεδομένων για το μοντέλο. Το μοντέλο αξιολογήθηκε με μετρικές όπως το γωνιακό σφάλμα και ο δείκτης ανάκλησης, με το μοντέλο να υπερέχει σημαντικά έναντι βασικών μεθόδων σύγκρισης. Ωστόσο, ο χρόνος εκτέλεσης παραμένει περιοριστικός, υποδεικνύοντας την ανάγκη για βελτιστοποίηση για χρήση σε εφαρμογές πραγματικού χρόνου. Η εργασία μας συνεισφέρει ένα ακριβές, προσαρμοστικό και συνεπές μοντέλο για την πρόβλεψη βλέμματος σε περιβάλλοντα VR με έντονες διεργασίες, και αποδεικνύει την δυνατότητα αξιοποίησης της χρονικής συνέχειας για ακριβή πρόβλεψη βλέμματος.	el
Type of Item	Διπλωματική Εργασία	el
Type of Item	Diploma Work	en
License	http://creativecommons.org/licenses/by/4.0/	en
Date of Item	2024-12-19	-
Date of Publication	2024	-
Subject	Virtual reality	en
Subject	Deep learning	en
Subject	Neural network	en
Subject	Gaze prediction	en
Bibliographic Citation	Konstantina Mammou, "A Gaze Prediction Model for VR Task-Oriented Environments", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2024	en
Bibliographic Citation	Κωνσταντίνα Μάμμου, "Ένα μοντέλο πρόβλεψης επικέντρωσης βλέμματος για περιβάλλοντα εικονικής πραγματικότητας προσανατολισμένα σε ενέργειες", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024	el

Search

Browse

My Space

A Gaze Prediction Model for VR Task-Oriented Environments

Mammou Konstantina

Available Files

Services

Export

Share

Statistics

Metadata & Content in a METS Package:

Metadata in Format: