Differentially private data synthesis using Variational Autoencoders

Margaritis Georgios

URI	http://purl.tuc.gr/dl/dias/9031C912-DCF1-408B-983B-EF725CEFBB34	-
Identifier	https://doi.org/10.26233/heallink.tuc.89575	-
Language	en	-
Extent	99 pages	en
Extent	2.6 megabytes	en
Title	Differentially private data synthesis using Variational Autoencoders	en
Title	Σύνθεση δεδομένων με εγγυήσεις διάφορης ιδιωτικότητας χρησιμοποιώντας Variational Autoencoders	el
Creator	Margaritis Georgios	en
Creator	Μαργαριτης Γεωργιος	el
Contributor [Thesis Supervisor]	Garofalakis Minos	en
Contributor [Thesis Supervisor]	Γαροφαλακης Μινως	el
Contributor [Committee Member]	Deligiannakis Antonios	en
Contributor [Committee Member]	Δεληγιαννακης Αντωνιος	el
Contributor [Committee Member]	Samoladas Vasilis	en
Contributor [Committee Member]	Σαμολαδας Βασιλης	el
Publisher	Πολυτεχνείο Κρήτης	el
Publisher	Technical University of Crete	en
Academic Unit	Technical University of Crete::School of Electrical and Computer Engineering	en
Academic Unit	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Description	Diploma Thesis	en
Content Summary	Following major privacy breaches around the world, individuals and organizations are becoming increasingly reluctant in giving away their personal data. This heightened awareness for privacy is hindering the creation of rich, centralized datasets, and results in data owners keeping their datasets private. However, if different parties are unwilling to share their data with one another, then the models they will be able to build on their own will be of inferior quality, due to the lack of data. Hence, in this thesis, we attempt to combine Variational Autoencoders, Federated Learning and Differential Privacy to solve this problem. These tools can enable a group of individuals or organizations to collaboratively create a rich synthetic dataset, without revealing their private data to one another, and without compromising their privacy. Then, they can all use the synthetic dataset to supplement their private datasets, they can use it to perform hyperparameter tuning on their models, or they can even release it publicly and share it with any other party. In any case, they will be mathematically assured that their privacy won’t be adversely affected, no matter what they choose to do with the synthetic dataset, or who they choose to share it with. Those privacy guarantees, which stem from the mathematical properties of Differential Privacy, are crucial when dealing with owners of sensitive data such as hospitals and healthcare organizations. In such cases, the volume of data a single hospital has may be rather limited, potentially leading to very poor diagnostic models. Hence, a privacy-aware synthetic dataset created by multiple hospitals, could pave the way for much better diagnostic models, while preserving the privacy of hospitals and their patients.	en
Content Summary	Ως απόρροια διαφόρων συμβάντων παραβίασης προσωπικών δεδομένων μεγάλης κλίμακας, οργανισμοί και ιδιώτες γίνονται ολοένα και πιο διστακτικοί στην παραχώρηση των δεδομένων τους σε τρίτους. Αυτή η αυξημένη ανάγκη για ιδιωτικότητα δυσχεραίνει τη δημιουργία πλούσιων, κεντρικοποιημένων βάσεων δεδομένων, έχοντας ως αποτέλεσμα οι κάτοχοι δεδομένων να διατηρούν τα δεδομένα τους μόνο για ιδιωτική χρήση. Όμως, οι μεμονωμένες, ιδιωτικές βάσεις δεδομένων, σε πολλές περπτώσεις, δεν ευνοούν την κατασκευή ποιοτικών μοντέλων μοντέλων μηχανικής μάθησης, καθότι τα μοντέλα αυτά απαιτούν πρόσβαση σε μεγάλο όγκο δεδομένων. Έτσι, στη διπλωματική αυτή, επιχειρούμε να χρησιμοποιήσουμε Variational Autoencoders, Federated Learning και Differential Privacy για να λύσουμε αυτό ακριβώς το πρόβλημα. Ο συνδυασμός των τριών αυτών τεχνολογιών μπορεί να δώσει τη δυνατότητα σε ένα σύνολο από ιδιώτες ή οργανισμούς να δημιουργήσουν από κοινού μια πλούσια, κεντρικοποιημένη βάση δεδομένων, χωρίς να αποκαλύπτουν τα δεδομένα τους ο ένας στον άλλον, και προπάντων, χωρίς να παραβιάζεται η ιδιωτικότητα κανενός εκ των συμμετεχόντων. Κατόπιν, όλοι οι συμμετέχοντες μπορούν να διαμοιράσουν την κεντρικοποιημένη βάση σε τρίτους, να την χρησιμοποιήσουν για να εμπλουτίσουν τα ιδιωτικά τους δεδομένα, ή να την αξιοποιήσουν για να εκπαιδεύσουν καλύτερα μοντέλα. Σε κάθε περίπτωση όμως, οι συμμετέχοντες θα μπορούν να είναι μαθηματικά βέβαιοι ότι δεν θα υπάρξουν αρνητικές επιπτώσεις στην ιδιωτικότητα τους, ασχέτως του τι επιλέξουν να κάνουν με την κεντρικοποιημένη βάση ή με ποιόν επιλέξουν να τη μοιραστούν. Αυτές οι εγγυήσεις ιδιωτικότητας οι οποίες απορρέουν από τις μαθηματικές ιδιότητες του Differential Privacy, είναι πολύ σημαντικές, ιδιαίτερα για κατόχους ευαίσθητων δεδομένων, όπως τα νοσοκομεία και οι υγειονομικοί οργανισμοί. Σε αυτές τις περιπτώσεις, ο όγκος δεδομένων που μπορεί να διαθέτει ένα νοσοκομείο είναι συχνά περιορισμένος, οδηγώντας πολλές φορές σε κακής ποιότητας διαγνωστικά μοντέλα. Επομένως, μια πλούσια, κεντρικοποιημένη βάση δεδομένων που κατασκευάζεται με σεβασμό προς την ιδιωτικότητα των νοσοκομείων και των ασθενών, μπορεί -μεταξύ άλλων- να ανοίξει το δρόμο για πολύ καλύτερα και ποιοτικότερα διαγνωστικά μοντέλα.	el
Type of Item	Διπλωματική Εργασία	el
Type of Item	Diploma Work	en
License	http://creativecommons.org/licenses/by/4.0/	en
Date of Item	2021-07-12	-
Date of Publication	2021	-
Subject	Differential privacy	en
Subject	Machine Learning	en
Subject	Generative Models	en
Subject	Deep Learning	en
Subject	Federated Learning	en
Subject	Variational Autoencoders	en
Bibliographic Citation	Georgios Margaritis, "Differentially private data synthesis using Variational Autoencoders", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021	en
Bibliographic Citation	Γεώργιος Μαργαρίτης, "Σύνθεση δεδομένων με εγγυήσεις διάφορης ιδιωτικότητας χρησιμοποιώντας Variational Autoencoders", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021	el

Search

Browse

My Space

Differentially private data synthesis using Variational Autoencoders

Margaritis Georgios

Available Files

Services

Export

Share

Statistics

Metadata & Content in a METS Package:

Metadata in Format: