Θέμα: Τεχνικές εξαγωγής πληροφορίας από βιολογικά δεδομένα και χρήση Νευρωνικών Δικτύων ως ταξινομιτές για ιατρική διάγνωση - Techniques for biological data feature aggregation for medical diagnosis and use of Neural Networks as classifiers
Εξεταστική Επιτροπή
Καθ. Μιχαήλ Ζερβάκης (Επιβλέπων)
Καθ. Γεώργιος Σταυρακάκης
Δρ. Ελευθερία Σεργάκη, μέλος ΕΔΙΠ
Περίληψη:
Η Παγκόσμια Έκθεση για τον Καρκίνο περιγράφει την ασθένεια του καρκίνου σαν ένα παγκόσιο πρόβλημα. Η σημερινή τεχνολογία μπορεί να μας δώσει προσεγγίσεις που αποκαλύπτουν τον καρκίνο σε κυτταρικό και μοριακό επίπεδο. Σε ένα δείγμα καρκινικής νόσου όπως μια βιοψία κυττάρων, χιλιάδες γονίδια κάθε φορά μπορούν να υποβληθούν σε ανάλυση με την τεχνολογία μικροσυστοιχιών. Οι μικροσυστοιχίες βοηθούν στην ταυτόχρονη ανάλυση των προφίλ γονιδιακής έκφρασης ενός μεγάλου αριθμού γονιδίων σε ένα μόνο πείραμα. Η κατανόηση των προτύπων γονιδιακής έκφρασης μπορεί να βοηθήσει στη διάγνωση και διάκριση διαφόρων τύπων καρκίνου. Η μηχανική μάθηση είναι ένας κλάδος της τεχνιτής νοημοσύνης που χρησιμοποιεί μια ποικιλία τεχνικών στατιστικής, πιθανοτήτων και βελτιστοποίησης που επιτρέπουν στους υπολογιστές να "μαθαίνουν" από παλιά παραδείγματα και να ανιχνεύουν μορφές που είναι δύσκολο να διακρίνουν από μεγάλα, θορυβώδη ή σύνθετα σύνολα δεδομένων. Αυτή η ικανότητα είναι ιδιαίτερα κατάλληλη για ιατρικές εφαρμογές, ειδικά εκείνες που εξαρτώνται από σύνθετες πρωτεϊνικές και γονιδιακές μετρήσεις. Ως αποτέλεσμα, η μηχανική μάθηση χρησιμοποιείται συχνά στη διάγνωση και στον εντοπισμό του καρκίνου. Πιο πρόσφατα η μηχανική μάθηση έχει εφαρμοστεί στην πρόγνωση καρκίνου. Αυτή η τελευταία προσέγγιση είναι ιδιαίτερα ενδιαφέρουσα, καθώς αποτελεί μέρος μιας αυξανόμενης τάσης της προγνωστικής ιατρικής.
Καταρχήν, ο στόχος μας ήταν να επεξεργαστουμε πραγματικά βιολογικά δεδομένα κάνοντας μια στατιστική ανάλυση, περιγραφή και οπτικοποίηση και στη συνέχεια να εκπαιδεύσουμε μοντέλο προβλέψεων για δυαδική ταξινόμηση του καρκίνου, βασισμένο σε αλγόριθμους μηχανικής μάθησης και τεχνικές εξαγωγής γνωρισμάτων. Χρησιμοποιούμε έξι αλγόριθμους μηχανικής μάθησης εποπτείας, όπως Logistic Regression (LR), Linear Discriminant Analysis (LDA), k-Nearest Neighbors (KNN), Classification and Regression Trees (CART), Naïve Bayes (NB) και Linear Support Vector Machines (SVM) σε διαφορετικά δεδομένα γονιδιακής έκφρασης για τον καρκίνο του τραχήλο, του μαστού, της οξείας μυελοειδούς λευχαιμίας και του καρκίνου στο πάγκρεας, όλα διαθέσιμα δημοσίως στην πλατφόρμα GEO.
Κατά τη διάρκεια της διαδικασίας, τα δεδομένα χωρίστηκαν τυχαία σε δεδομένα εκπαίδευσης (train set) των αλγορίθμων και σε δεδομένα για τις τελικές προβλέψεις (validation set). Το train set χρησιμοποείται με τη μέθοδο 5-fold cross-validation για τρία διαφορετικά σενάρια: στα αρχικά δεδομένα, σε δεδομένα που έχουν επεξεργαστεί με την μέθοδο standardization και τελικά σε επεξεργασμένα δεδομένα που έχουν μετασχηματιστεί από τεχνικές εξαγωγής και μείωσης γνωρισμάτων όπως Principal Component Analysis (PCA). Στο τέλος αφού εκπαιδεύσουμε τα μοντέλα, χρησιμοποιούμε το validation set για αξιολογήσουμε την απόδοση των μοντέλων μας στις προβλέψεις.
Καταλήγουμε να έχουμε ποσοστά ακρίβειας (accuracy) : 100% στα μοντέλα που εκπαιδευτηκαν με LR, NB και SVM στα δεδομένα γονιδιακής έκφρασης του καρκίνου του τραχήλου της μήτρας, 90% στα μοντέλα που εκπαιδευτηκαν με LDA στα δεδομένα γονιδιακής έκφρασης του καρκίνου του μαστού, 95,4% στα μοντέλα που εκπαιδευτηκαν με NB στα δεδομένα γονιδιακής έκφρασης της οξείας μυελοειδούς λευχαιμίας και 94,4% στα μοντέλα που εκπαιδευτηκαν με LR στα δεδομένα γονιδιακής έκφρασης του καρκίνου στο πάγκρεας. Επιπλέον, κατά τη διάρκεια της διαδικασίας εξετάζουμε τα μοντέλα μας για να αξιολογήσουμε περαιτέρω μετρήσεις ταξινόμησης όπως η ακρίβεια (precision), η ευαισθησία (sensitivity) , η βαθμολογία f1 (f1-score) και οι καμπύλες ROC. Τέλος, συγκρίνουμε τα αποτελέσματα του 5-fold cross-validation σε κάθε σενάριο, προκειμένου να εξάγουμε χρήσιμες γνώσεις.
Λέξεις κλειδιά: διάγνωση καρκίνου, μοντέλο προβλέψεων, μηχανική μάθηση, μικροσυστοιχίες, γονιδιακη έκφραση, τεχνικές εξαγωγής γνωρισμάτων και μείωσης διαστάσεων, Logistic Regression, Linear Discriminant Analysis, k-Nearest Neighbors, Classification And Regression Trees, Naïve Bayes, Support Vector Machines.
Abstract:
Cancer is a global problem as it is described in the World Cancer Report. Today’s technology can give approaches that reveal the cellular and molecular level of cancer. In a cancer disease sample such a cell biopsy to be processed, thousands of genes at a time can be subjected simultaneously for analysis in a single chip, called Microarray.
Machine learning is a branch of artificial intelligence that employs a variety of statistical, probabilistic and optimization techniques that allows computers to “learn” from past examples and to detect hard-to-discern patterns from large, noisy or complex data sets. This capability is particularly well-suited to medical applications, especially those that depend on complex proteomic and genomic measurements. As a result, machine learning is frequently used in cancer diagnosis and detection. More recently machine learning has been applied to cancer prognosis and prediction. This latter approach is particularly interesting as it is part of a growing trend towards personalized, predictive medicine.
Our goal was, firstly, to construct a framework for statistical analysis, description and visualization of real biological data and secondly, build a predictive model for binary classification of cancer based on machine learning algorithms and feature selection techniques. We use six algorithms of supervised machine learning such as Logistic Regression (LR), Linear Discriminant Analysis (LDA), k-Nearest Neighbors (KNN), Classification and Regression Trees (CART), Naïve Bayes (NB) and Linear Support Vector Machines (SVM) to be tested in different datasets of Cervical, Breast, Acute Myeloid Leukemia and Pancreatic cancer, publicly available on Gene Expression Omnibus platform.
During the learning procedure, the data were split to validation and train sets. The train set, is used in 5-fold cross-validation for three different scenarios: on primary data, on standardized data, and finally on standardized data that have been transformed by the dimensionality reduction technique of Principal Component Analysis (PCA) and other feature reduction techniques. Finally we compare the results and use the validation dataset to evaluate our models’ predictions on unseen data.
We end up with prediction accuracy: 100% of models trained with LR, NB and SVM on Cervical dataset, 90% of models built with LDA on Breast dataset, 95.4% of models trained with NB on AML dataset and 94.4% trained with LR Pancreatic dataset, respectfully. During the procedure, we compare the results of 5-fold cross-validation on each step and finally we estimate more evaluation metrics such as precision, sensitivity, f1-score and ROC curves, in order to extract useful insights.
Keywords: cancer diagnosis, predictive model, machine learning, microarrays, gene expression, feature selection techniques, dimensionality reduction, Logistic Regression, Linear Discriminant Analysis, k-Nearest Neighbors, Classification And Regression Trees, Naïve Bayes, Support Vector Machines, Principal Component Analysis.
Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 141Π-39
Έναρξη: 03/12/2019 14:00
Λήξη: 03/12/2019 15:00