Συντάχθηκε 02-07-2021 11:39
Τόπος: Η παρουσίαση θα γίνει με τηλεδιάσκεψη
Σύνδεσμος τηλεδιάσκεψης
Έναρξη: 06/07/2021 11:00
Λήξη: 06/07/2021 12:00
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
ΓΕΩΡΓΙΟΣ ΜΑΡΓΑΡΙΤΗΣ
θέμα
Σύνθεση Δεδομένων με Εγγυήσεις Διάφορης Ιδιωτικότητας Χρησιμοποιώντας Variational Autoencoders
Differentially Private Data Synthesis using Variational Autoencoders
Εξεταστική Επιτροπή
Καθηγητής Γαροφαλάκης Μίνως (επιβλέπων)
Καθηγητής Δεληγιαννάκης Αντώνιος
Αναπληρωτής Καθηγητής Σαμολαδάς Βασίλειος
Περίληψη
Ως απόρροια διαφόρων συμβάντων παραβίασης προσωπικών δεδομένων μεγάλης κλίμακας, οργανισμοί και ιδιώτες γίνονται ολοένα και πιο διστακτικοί στην παραχώρηση των δεδομένων τους σε τρίτους. Αυτή η αυξημένη ανάγκη για ιδιωτικότητα δυσχεραίνει τη δημιουργία πλούσιων, κεντρικοποιημένων βάσεων δεδομένων, έχοντας ως αποτέλεσμα οι κάτοχοι δεδομένων να διατηρούν τα δεδομένα τους μόνο για ιδιωτική χρήση. Όμως, οι μεμονωμένες, ιδιωτικές βάσεις δεδομένων, σε πολλές περπτώσεις, δεν ευνοούν την κατασκευή ποιοτικών μοντέλων μοντέλων μηχανικής μάθησης, καθότι τα μοντέλα αυτά απαιτούν πρόσβαση σε μεγάλο όγκο δεδομένων.
Έτσι, στη διπλωματική αυτή, επιχειρούμε να χρησιμοποιήσουμε Variational Autoencoders, Federated Learning και Differential Privacy για να λύσουμε αυτό ακριβώς το πρόβλημα. Ο συνδυασμός των τριών αυτών τεχνολογιών μπορεί να δώσει τη δυνατότητα σε ένα σύνολο από ιδιώτες ή οργανισμούς να δημιουργήσουν από κοινού μια πλούσια, κεντρικοποιημένη βάση δεδομένων, χωρίς να αποκαλύπτουν τα δεδομένα τους ο ένας στον άλλον, και προπάντων, χωρίς να παραβιάζεται η ιδιωτικότητα κανενός εκ των συμμετεχόντων. Κατόπιν, όλοι οι συμμετέχοντες μπορούν να διαμοιράσουν την κεντρικοποιημένη βάση σε τρίτους, να την χρησιμοποιήσουν για να εμπλουτίσουν τα ιδιωτικά τους δεδομένα, ή να την αξιοποιήσουν για να εκπαιδεύσουν καλύτερα μοντέλα. Σε κάθε περίπτωση όμως, οι συμμετέχοντες θα μπορούν να είναι μαθηματικά βέβαιοι ότι δεν θα υπάρξουν αρνητικές επιπτώσεις στην ιδιωτικότητα τους, ασχέτως του τι επιλέξουν να κάνουν με την κεντρικοποιημένη βάση ή με ποιόν επιλέξουν να τη μοιραστούν. Αυτές οι εγγυήσεις ιδιωτικότητας οι οποίες απορρέουν από τις μαθηματικές ιδιότητες του Differential Privacy, είναι πολύ σημαντικές, ιδιαίτερα για κατόχους ευαίσθητων δεδομένων, όπως τα νοσοκομεία και οι υγειονομικοί οργανισμοί. Σε αυτές τις περιπτώσεις, ο όγκος δεδομένων που μπορεί να διαθέτει ένα νοσοκομείο είναι συχνά περιορισμένος, οδηγώντας πολλές φορές σε κακής ποιότητας διαγνωστικά μοντέλα. Επομένως, μια πλούσια, κεντρικοποιημένη βάση δεδομένων που κατασκευάζεται με σεβασμό προς την ιδιωτικότητα των νοσοκομείων και των ασθενών, μπορεί -μεταξύ άλλων- να ανοίξει το δρόμο για πολύ καλύτερα και ποιοτικότερα διαγνωστικά μοντέλα.
Abstract
Following major privacy breaches around the world, individuals and organizations are becoming increasingly reluctant in giving away their personal data. This heightened awareness for privacy is hindering the creation of rich, centralized datasets, and results in data owners keeping their datasets private. However, if different parties are unwilling to share their data with one another, then the models they will be able to build on their own will be of inferior quality, due to the lack of data.
Hence, in this thesis, we attempt to combine Variational Autoencoders, Federated Learning and Differential Privacy to solve this problem. These tools can enable a group of individuals or organizations to collaboratively create a rich synthetic dataset, without revealing their private data to one another, and without compromising their privacy. Then, they can all use the synthetic dataset to supplement their private datasets, they can use it to perform hyperparameter tuning on their models, or they can even release it publicly and share it with any other party. In any case, they will be mathematically assured that their privacy won’t be adversely affected, no matter what they choose to do with the synthetic dataset, or who they choose to share it with. Those privacy guarantees, which stem from the mathematical properties of Differential Privacy, are crucial when dealing with owners of sensitive data such as hospitals and healthcare organizations. In such cases, the volume of data a single hospital has may be rather limited, potentially leading to very poor diagnostic models. Hence, a privacy-aware synthetic dataset created by multiple hospitals, could pave the way for much better diagnostic models, while preserving the privacy of hospitals and their patients.