Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Differentially private data synthesis using Variational Autoencoders

Margaritis Georgios

Simple record


URIhttp://purl.tuc.gr/dl/dias/9031C912-DCF1-408B-983B-EF725CEFBB34-
Identifierhttps://doi.org/10.26233/heallink.tuc.89575-
Languageen-
Extent99 pagesen
Extent2.6 megabytesen
TitleDifferentially private data synthesis using Variational Autoencodersen
TitleΣύνθεση δεδομένων με εγγυήσεις διάφορης ιδιωτικότητας χρησιμοποιώντας Variational Autoencodersel
CreatorMargaritis Georgiosen
CreatorΜαργαριτης Γεωργιοςel
Contributor [Thesis Supervisor]Garofalakis Minosen
Contributor [Thesis Supervisor]Γαροφαλακης Μινωςel
Contributor [Committee Member]Deligiannakis Antoniosen
Contributor [Committee Member]Δεληγιαννακης Αντωνιοςel
Contributor [Committee Member]Samoladas Vasilisen
Contributor [Committee Member]Σαμολαδας Βασιληςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
DescriptionDiploma Thesisen
Content SummaryFollowing major privacy breaches around the world, individuals and organizations are becoming increasingly reluctant in giving away their personal data. This heightened awareness for privacy is hindering the creation of rich, centralized datasets, and results in data owners keeping their datasets private. However, if different parties are unwilling to share their data with one another, then the models they will be able to build on their own will be of inferior quality, due to the lack of data. Hence, in this thesis, we attempt to combine Variational Autoencoders, Federated Learning and Differential Privacy to solve this problem. These tools can enable a group of individuals or organizations to collaboratively create a rich synthetic dataset, without revealing their private data to one another, and without compromising their privacy. Then, they can all use the synthetic dataset to supplement their private datasets, they can use it to perform hyperparameter tuning on their models, or they can even release it publicly and share it with any other party. In any case, they will be mathematically assured that their privacy won’t be adversely affected, no matter what they choose to do with the synthetic dataset, or who they choose to share it with. Those privacy guarantees, which stem from the mathematical properties of Differential Privacy, are crucial when dealing with owners of sensitive data such as hospitals and healthcare organizations. In such cases, the volume of data a single hospital has may be rather limited, potentially leading to very poor diagnostic models. Hence, a privacy-aware synthetic dataset created by multiple hospitals, could pave the way for much better diagnostic models, while preserving the privacy of hospitals and their patients. en
Content SummaryΩς απόρροια διαφόρων συμβάντων παραβίασης προσωπικών δεδομένων μεγάλης κλίμακας, οργανισμοί και ιδιώτες γίνονται ολοένα και πιο διστακτικοί στην παραχώρηση των δεδομένων τους σε τρίτους. Αυτή η αυξημένη ανάγκη για ιδιωτικότητα δυσχεραίνει τη δημιουργία πλούσιων, κεντρικοποιημένων βάσεων δεδομένων, έχοντας ως αποτέλεσμα οι κάτοχοι δεδομένων να διατηρούν τα δεδομένα τους μόνο για ιδιωτική χρήση. Όμως, οι μεμονωμένες, ιδιωτικές βάσεις δεδομένων, σε πολλές περπτώσεις, δεν ευνοούν την κατασκευή ποιοτικών μοντέλων μοντέλων μηχανικής μάθησης, καθότι τα μοντέλα αυτά απαιτούν πρόσβαση σε μεγάλο όγκο δεδομένων. Έτσι, στη διπλωματική αυτή, επιχειρούμε να χρησιμοποιήσουμε Variational Autoencoders, Federated Learning και Differential Privacy για να λύσουμε αυτό ακριβώς το πρόβλημα. Ο συνδυασμός των τριών αυτών τεχνολογιών μπορεί να δώσει τη δυνατότητα σε ένα σύνολο από ιδιώτες ή οργανισμούς να δημιουργήσουν από κοινού μια πλούσια, κεντρικοποιημένη βάση δεδομένων, χωρίς να αποκαλύπτουν τα δεδομένα τους ο ένας στον άλλον, και προπάντων, χωρίς να παραβιάζεται η ιδιωτικότητα κανενός εκ των συμμετεχόντων. Κατόπιν, όλοι οι συμμετέχοντες μπορούν να διαμοιράσουν την κεντρικοποιημένη βάση σε τρίτους, να την χρησιμοποιήσουν για να εμπλουτίσουν τα ιδιωτικά τους δεδομένα, ή να την αξιοποιήσουν για να εκπαιδεύσουν καλύτερα μοντέλα. Σε κάθε περίπτωση όμως, οι συμμετέχοντες θα μπορούν να είναι μαθηματικά βέβαιοι ότι δεν θα υπάρξουν αρνητικές επιπτώσεις στην ιδιωτικότητα τους, ασχέτως του τι επιλέξουν να κάνουν με την κεντρικοποιημένη βάση ή με ποιόν επιλέξουν να τη μοιραστούν. Αυτές οι εγγυήσεις ιδιωτικότητας οι οποίες απορρέουν από τις μαθηματικές ιδιότητες του Differential Privacy, είναι πολύ σημαντικές, ιδιαίτερα για κατόχους ευαίσθητων δεδομένων, όπως τα νοσοκομεία και οι υγειονομικοί οργανισμοί. Σε αυτές τις περιπτώσεις, ο όγκος δεδομένων που μπορεί να διαθέτει ένα νοσοκομείο είναι συχνά περιορισμένος, οδηγώντας πολλές φορές σε κακής ποιότητας διαγνωστικά μοντέλα. Επομένως, μια πλούσια, κεντρικοποιημένη βάση δεδομένων που κατασκευάζεται με σεβασμό προς την ιδιωτικότητα των νοσοκομείων και των ασθενών, μπορεί -μεταξύ άλλων- να ανοίξει το δρόμο για πολύ καλύτερα και ποιοτικότερα διαγνωστικά μοντέλα. el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2021-07-12-
Date of Publication2021-
SubjectDifferential privacyen
SubjectMachine Learningen
SubjectGenerative Modelsen
SubjectDeep Learningen
SubjectFederated Learningen
SubjectVariational Autoencodersen
Bibliographic CitationGeorgios Margaritis, "Differentially private data synthesis using Variational Autoencoders", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021en
Bibliographic CitationΓεώργιος Μαργαρίτης, "Σύνθεση δεδομένων με εγγυήσεις διάφορης ιδιωτικότητας χρησιμοποιώντας Variational Autoencoders", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021el

Available Files

Services

Statistics