Θέμα: Αλγόριθμοι Πιθανοτικής Θεματικής Μοντελοποίησης για Ανάλυση Δεδομένων Γονιδιακής Έκφρασης (A Framework for Employing Probabilistic Topic Models on Gene Expression Data)
Εξεταστική Επιτροπή:
Αναπληρωτής Καθηγητής Γεώργιος Χαλκιαδάκης (Επιβλέπων)
Καθηγητής Μιχαήλ Ζερβάκης
Δρ. Γεώργιος Παλιούρας, ΕΚΕΦΕ Δημόκριτος
Περίληψη:
Ένα από τα πιο σημαντικά προβλήματα στην υπολογιστική βιολογία είναι η εξαγωγή γνώσης και ο εντοπισμός μοτίβων σε πραγματικά βιολογικά δεδομένα.
Τα πειράματα με μικροσυστοιχίες γονιδίων, για παράδειγμα, αποσκοπούν στη μέτρηση της γονιδιακής έκφρασης, μια θεμελιώδους διαδικασίας μέσω της οποίας δημιουργούνται παράγωγα των γονιδίων, όπως οι πρωτεΐνες, και η οποία δημιουργεί τον φαινότυπο του γονιδίου.
Η ανάλυση δεδομένων γονιδιακής έκφρασης μπορεί να οδηγήσει στον εντοπισμό γονιδίων ή ομάδων γονιδίων τα οποία σχετίζονται με την εμφάνιση συγκεκριμένων ασθενειών.
Σε αυτή την μεταπτυχιακή εργασία, χρησιμοποιούμε Πιθανοτική Θεματική Μοντελοποίηση ( Probabilistic Topic Modeling - PTM), μια κατηγορία αλγορίθμων μη επιβλεπόμενης μάθησης, για την ανάλυση δεδομένων γονιδιακής έκφρασης.
Αν και αυτές οι μέθοδοι πρωτοεφαρμόστηκαν για την εξαγωγή λανθάνοντων ``θεμάτων'' σε κείμενα, εδώ χρησιμοποιούνται για την ανακάλυψη γονιδιακών μοτίβων υπεύθυνων για βιολογικές διαδικασίες που μπορούν να πυροδοτήσουν συγκεκριμένες παθήσεις.
Πιο αναλυτικά, η παρούσα μεταπτυχιακή μελέτη συνεισφέρει ένα γενικό πλαίσιο εργασίας, το οποίο επιτρέπει την χρήση οποιουδήποτε PTM αλγορίθμου για ανάλυση δεδομένων γονιδιακής έκφρασης.
Το πλαίσιο αυτό επιτρέπει την ενσωμάτωση τεχνικών προ-επεξεργασίας και μετασχηματισμού των γονιδιακών δεδομένων, ώστε να εκφραστούν σε συμφωνία με το πρότυπο αναπαράστασης κειμένου ``σύνολο λέξεων (bag of words)'', το οποίο απαιτούν ως είσοδο οι περισσότεροι PTM αλγόριθμοι.
Μετά από αυτόν τον (ενδεχόμενο) μετασχηματισμό των δεδομένων εισόδου, το πλαίσιο επιτρέπει την εκτέλεση του όποιου επιλεγμένου PTM αλγορίθμου ώστε να εξαχθούν τα ``πιθανοτικά θέματα’’ (probabilistic topics), δηλαδή οι κρυφές πιθανοτικές κατανομές που ακολουθούν τα γονίδια (λέξεις), και οι οποίες διέπουν την δημιουργία βιολογικών δειγμάτων (κείμενα).
Τα θέματα που έχουν εξαχθεί στην συνέχεια χρησιμοποιούνται για την μείωση των διαστάσεων του χώρου γνωρισμάτων, και πιο συγκεκριμένα την επιλογή και εξαγωγή των πλέον σημαντικών γνωρισμάτων (γονιδίων) που χαρακτηρίζουν τα βιολογικά δείγματα.
Τέλος, το προτεινόμενο πλαίσιο επιτρέπει τη χρήση μοντέρνων εργαλείων για την οπτικοποίηση των εξαχθέντων θεμάτων.
Έχουμε ήδη υλοποιήσει και εντάξει στο προτεινόμενο πλαίσιο ένα σύνολο από τεχνικές μετασχηματισμού δεδομένων, καθώς και δύο αλγορίθμους PTM: τον Latent Dirichlet Allocation (LDA), μια εδραιωμένη τεχνική PTM, και τον Latent Process Decomposition (LPD), έναν αλγόριθμο που προτάθηκε σχετικά πρόσφατα στη βιβλιογραφία, συγκεκριμένα για ανάλυση μικροσυστοιχιών γονιδίων.
Μία από της μεθόδους μετασχηματισμού που χρησιμοποιούμε είναι εντελώς καινοτόμα, και σχεδιασμένη στα πλαίσια αυτής της εργασίας, συγκεκριμένα για το πρόβλημα που έχουμε να αντιμετωπίσουμε.
Επιπλέον, προτείνουμε την καινοτόμα χρήση δυο γνωστών μετρικών (της ``KL-divergence'' και του ``Relevance Score''), για να συνδράμουν στην επιλογή των γνωρισμάτων.
Διεξάγουμε μια συστηματική αξιολόγηση των τεχνικών για επιλογή και εξαγωγή γνωρισμάτων σε αυτό το πρόβλημα, χρησιμοποιώντας δυο πραγματικά σύνολα δεδομένων γονιδιακής έκφρασης-- ένα σετ δεδομένων που σχετίζεται με ασθένειες μυϊκού ιστού, καθώς και ένα ευρέως χρησιμοποιούμενο σετ δεδομένων σχετικό με τον καρκίνο του μαστού.
Τα αποτελέσματά μας εν γένει υποδεικνύουν ότι οι αλγόριθμοι PTM μπορεί να είναι αρκετά αποτελεσματικοί όσον αφορά την μείωση των διαστάσεων των δεδομένων σε αυτό το πρόβλημα, παρουσιάζοντας επιδόσεις που είναι συνήθως τουλάχιστον συγκρίσιμες με εκείνες γνωστών εναλλακτικών αλγορίθμων που χρησιμοποιήθηκαν για την αξιολόγηση. Η απόδοση του αλγορίθμου LPD συγκεκριμένα όσον αφορά το πρόβλημα ‘’εξαγωγής γνωρισμάτων’’ (feature selection) είναι ιδιαίτερα αξιοσημείωτη.
Επιπροσθέτως, η εργασία μας καταλήγει σε ενδιαφέροντα συμπεράσματα σχετικά με την αποτελεσματικότητα των διάφορων μεθόδων μετασχηματισμού των δεδομένων όταν αυτές συνδυάζονται με τον αλγόριθμο LDA.
Τέλος, η μεταπτυχιακή αυτή εργασία εκτός των άλλων αναδεικνύει το γεγονός πως η χρήση PTM αλγορίθμων συμβάλει στην οπτικοποίηση των κρυμμένων και υποβόσκοντων γενετικών μοτίβων που ενεργοποιούνται στην διαδικασία της γονιδιακής έκφρασης. Με βάση και αυτό το γεγονός, η χρήση του προτεινόμενου πλαισίου πιθανοτικής θεματικής μοντελοποίησης μπορεί να παρέχει σημαντική βοήθεια στους βιολόγους που επιχειρούν να αναγνωρίσουν ενδιαφέρουσες τάξεις γονιδίων (πραγματοποιώντας εργασίες γονιδιακού σχολιασμού και εμπλουτισμού).
Abstract:
One of the most important problems in computational biology is extracting knowledge and identifying patterns in real world biological datasets.
In particular, microarray analysis experiments measure gene expression, the fundamental process by which gene products such as proteins are created, and which gives rise to the gene phenotype.
Gene expression data can be analyzed to uncover genes or groups thereof, which are accountable for the development of specific diseases.
In this thesis, we employ Probabilistic Topic Modeling (PTM), a category of unsupervised learning algorithms, for gene expression data analysis.
PTM was first introduced and applied for extracting latent ``topics'' in text documents. Here we use them to uncover the genetic patterns responsible for biological processes and trigger specific diseases.
More precisely, this thesis contributes a generic framework that allows the use of any PTM algorithm of choice for gene expression data analysis.
Our framework allows the incorporation of data preprocessing and transformation techniques, to permit the
the preprocessing of gene expression data into the ``bag of words'' paradigm, a format that the majority of Probabilistic Topic Models require as input.
Following this potential data transformation, the PTM algorithm of choice is employed to extract probabilistic topics---that is, the hidden probability distributions (themes) over the genes (words), which govern the creation of biological samples (documents).
The extracted topics are subsequently utilized for performing dimensionality reduction, particularly feature selection and feature extraction, of the most important features (genes), that characterize the dataset.
Finally, the framework comes complete with modern topics' visualization techniques.
We populate our framework with various data transformation algorithms, and with two PTM techniques: Latent Dirichlet Allocation (LDA), a well-established PTM technique, and Latent Process Decomposition (LPD), an algorithm introduced specifically for the microarray setting.
One of the data transformation algorithms we employ is novel, designed specifically for the task at hand.
Moreover, we propose the novel use of two scoring methods (``KL-divergence'' and ``Relevance Score'') to assist our feature selection efforts.
We conduct a systematic evaluation of our techniques for feature selection and feature extraction tasks in this setting, using two real-world gene expression datasets---a recent dataset associated to muscle tissue conditions, and a frequently used breast cancer-related dataset.
Overall, our results indicate that PTM algorithms can be quite successful in dimensionality reduction tasks in this setting, exhibiting performance that is usually at least comparable to that of the baseline algorithms used for evaluation; with the performance of LPD in feature extraction tasks being particularly noteworthy.
Moreover, interesting conclusions on the efficacy of our various data transformation algorithms when combined with LDA are drawn in the process.
Finally, this thesis demonstrates and helps underscore the fact that PTMs allow for the easy visualization of the hidden underlying genetic patterns at work in gene expression processes, and can therefore provide much needed assistance to biologists attempting to identify interesting classes of genes (i.e., carrying out gene annotation and enrichment analysis tasks).
Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 141Α-14, Αίθουσα Εργαστηρίου Intelligence
Έναρξη: 25/11/2019 14:00
Λήξη: 25/11/2019 15:00