Συντάχθηκε 30-10-2017 11:22
από Vasiliki Grigoraki
Email συντάκτη: vgrigoraki<στο>tuc.gr
Ενημερώθηκε:
-
Κύρια: υπάλληλος ΗΜΜΥ.
Άλλες ιδιότητες: Unknown -#-@ΗΜΜΥ
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Πρόγραμμα Προπτυχιακών Σπουδών
ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Νικόλαος Μπαρούτης
Προσαρμοστικοί Νευρο-Ασαφοί Αλγόριθμοι Συμπερασμού για Διάγνωση σε Ιατρικά Προβλήματα
Adaptive Neuro-fuzzy Inference Systems (ANFIS) applied on Medical Diagnosis
Εξεταστική Επιτροπή
Καθηγητής Μιχαήλ Ζερβάκης (επιβλέπων)
Αναπληρωτής Καθηγητής Γεώργιος Χαλκιαδάκης (μέλος)
Δρ. Ελευθερία Σεργάκη (μέλος)
Περίληψη
Τα τελευταία τριάντα χρόνια με την είσοδο της μηχανικής μάθησης (ΜΜ) και της τεχνητής νοημοσύνης (ΤΝ) στο κλάδο των ιατρικών επιστημών η έγκαιρη, μη δαπανηρή και μη επεμβατική ιατρική διάγνωση με αυτοματοποιημένα συστήματα αποτελεί σημαντικότατο υποστηρικτικό ιατρικό εργαλείο. Η καρδιαγγειακή πάθηση από το 2003 αποτελεί την πιο θανατηφόρα αιτία με ετήσιο ποσοστό θνησιμότητας 31% του παγκόσμιου πληθυσμού, ενώ επίσης για τους νοσούντες απαιτεί από τις πιο δαπανηρές και χρονοβόρες νοσοκομειακές θεραπείες. Εκ του 31% του αποθανόντος πληθυσμού λόγω καρδιαγγειακών παθήσεων το 42% οφείλεται στην στεφανιαία νόσο την οποία αποσκοπούμε να προβλέψουμε βέλτιστα με υπολογιστικό μοντέλο ΤΝ ή/και ΜΜ στην παρούσα διπλωματική. Αυτή η νόσος είναι και η γενεσιουργός αιτία για πληθώρα άλλων καρδιαγγειακών παθήσεων καθώς και για εγκεφαλικό επεισόδιο.
Ως στεφανιαία νόσος ορίζεται η στένωση των βασικών καρδιακών αρτηριών η οποία προκαλείται από τη συσσώρευση αθηρωματικού υλικού στον αυλό τους και παρεμποδίζει την αιμάτωση του καρδιακού μυ με τελικό αποτέλεσμα την καρδιακή ανεπάρκεια. Η επικινδυνότητα αυτής της νόσου έγκειται στην σιωπηλή εμφάνιση της. Παράμετροι και συμπτώματα που συσχετίζονται με την νόσο αυτή είναι η ηλικία, το φύλο, η υψηλή χοληστερίνη, ο στηθαγχικός πόνος, η αφύσικη αρτηριακή πίεση, η υπέρταση, το οικογενειακό ιστορικό, τα έτη ως καπνιστής, το πλήθος τσιγάρων ημερησίως, το υψηλό σάκχαρο στο αίμα, το άγχος και η έλλειψη άσκησης.
Πιο συγκεκριμένα, στην παρούσα διπλωματική εργασία ερευνούμε την εύρεση του βέλτιστου ελάχιστου σετ ιατρικών δεδομένων για τον ασθενή τα οποία με χρήση αλγόριθμων ΤΝ και ΜΜ πετυχαίνουν διάγνωση βέλτιστης κατηγοριοποίησης της στεφανιαίας νόσου ασθενών για τα τρία στάδια: Απουσία κινδύνου, Μέτρια Υψηλό, Πολύ Υψηλό κίνδυνο, αντί αποκλειστικά για δύο (Απουσία ή παρουσία της νόσου) όπως συστηματικά από το 1988 μέχρι σήμερα είναι ο στόχος των αντίστοιχων ερευνητικών εργασιών. Η εν λόγω διάγνωση κατηγοριοποίησης δεν έχει ερευνηθεί μέχρι στιγμής λόγω του μεγάλου πλήθος των παραμέτρων διάγνωσης και της πολυπλοκότητας του συνδυασμού τους. Η κατηγοριοποίηση γίνεται από τους γιατρούς λαμβάνοντας υπόψη προχωρημένες εξετάσεις των ασθενών που είναι χρονοβόρες και δαπανηρές, όπως το τεστ κοπώσεως και το σπινθηρογράφημα του μυοκαρδίου. Όταν είναι διαθέσιμες αυτές οι εξετάσεις, τα υπολογιστικά μοντέλα πρόβλεψης ασθένειας δεν συμβάλουν σημαντικά ή και καθόλου στο ιατρικό συμπέρασμα.
Στους πειραματισμούς μας, χρησιμοποιούμε τη βάση δεδομένων 298 ασθενών του νοσοκομείου του Cleveland, η οποία περιλαμβάνει για κάθε ασθενή 13 τιμές σχετικών με την πάθηση. Αυτές οι παράμετροι χρησιμοποιούνται για τη σχετική διάγνωση από το 1988. Επιπλέον χρησιμοποιήσαμε τις βάσεις ιατρικών δεδομένων από το αποθετήριο του πανεπιστημίου University of California, Irvine (UCI). Αυτό διαθέτει δεδομένα (όχι πλήρη) με απολεσθείσες τιμές δεδομένων της τάξης του 4% για το 15% του πληθυσμού των ασθενών της βάσης. Μέσω προσωπικής παρατήρησης ελέγχτηκαν ένα προς ένα τα δεδομένα και κατόπιν μέσω στατιστικής ανάλυσης δεδομένων συμπληρώσαμε τις κενές τιμές των παραμέτρων. Τα δεδομένα αυτών των ασθενών ενσωματώθηκαν στη βάση δεδομένων ασθενών του Cleveland για να αυξηθεί ο πληθυσμός των ασθενών κατά 21%. Με τη συμβολή του συνεργάτη μας καρδιολόγου δημιουργούμε και προτείνουμε δικό μας υποσύνολο παραμέτρων διάγνωσης για τον κάθε ασθενή, με κριτήριο οι τιμές αυτών να προκύπτουν από απλές και οικονομικές ιατρικές εξετάσεις, όπως το βιοχημικό τεστ αίματος, το ηλεκτροκαρδιογραφήματος και τις απαντήσεις της συνέντευξης του ασθενή προς τον καρδιολόγο. Δεν συμπεριλάβαμε το τεστ κοπώσεως και το σπινθηρογράφημα του μυοκαρδίου.
Αρχικά, προκειμένου να εξεταστεί περεταίρω μείωση των παραμέτρων διάγνωσης, επεξεργαστήκαμε τα δεδομένα μας με μεθόδους στατιστικής προ-επεξεργασίας ανάλυσης δεδομένων με τον αλγόριθμο Κύριων Συνιστωσών και στη συνέχεια τα χρησιμοποιήσαμε για τους παρακάτω ευφυείς αλγόριθμους: Α) Νεύρο-Ασαφή συστήματα συμπερασμού (ΑNFIS) βασισμένα σε i) subtractive clustering , ii) fuzzy c means clustering, iii) αλγόριθμο Βελτιστοποίησης Σμήνους Σωματιδίων για τη βελτίωση του ANFIS iv) Γενετικό Αλγόριθμο σε Νεύρο-Ασαφή συστήματα συμπερασμού για τη βελτίωση του ANFIS και Β) Εφαρμογή Βαθιών Τεχνιτών Νευρωνικών Δικτύων (deep ΑΝΝ), με σκοπό να βρεθεί ένα διαγνωστικό σύστημα με τη βέλτιστη ακρίβεια γενίκευσης.
Μετά από πολλαπλές παραμετροποιήσεις όλων των παραπάνω πειραμάτων το Νευρωνικό Δίκτυο πολλαπλών επιπέδων με τη δημιουργία μιας συνδυαστικής τεχνικής για την αρχικοποίηση των βαρών και με συνάρτηση μεταφοράς κλιμακωτών συζυγών κλήσεων ανάστροφης διάδοσης πέτυχε το βέλτιστο αποτέλεσμα.
Για το μειωμένο υποσύνολο δεδομένων ανά ασθενή που προτείνουμε, η βέλτιστη ακρίβεια γενίκευσης είναι 74% μέσος όρος από τις τρεις κατηγορίες κινδύνου. Για την κατηγορία Απουσία κινδύνου που είναι η πιο σημαντική διότι είναι το επίπεδο ασφαλείας για τον ασθενή έχουμε Πολύ Καλή πρόβλεψη κατά ROC το οποίο περιλαμβάνει την αξιολόγηση {Σχεδόν Άριστη, Πολύ Καλή, Καλή, Μέτρια, Άνευ Αξίας}. Για τις κατηγορίες Μέτρια Υψηλό και Πολύ Υψηλό κίνδυνο έχει καλή προβλεψιμότητα το μοντέλο. Το συγκεκριμένο σύστημα ιατρικής υποβοήθησης κάνει χρήση δεδομένων από τις απαντήσεις απλών ερωτήσεων προς τον ασθενή, το βιοχημικό τεστ αίματος και το καρδιογράφημα, εξαιρώντας δεδομένα από επεμβατικές χρονοβόρες και δαπανηρές μεθόδους διάγνωσης.
Abstract
The last thirty years Artificial Intelligence (AI) and Machine Learning (ML) used for computer systems to make fast, inexpensive, no invasive medical predictions and have a crucial importance as supporting tools for the doctors. Since 2013, cardiovascular disease (CVD) is the number one killer factor in the world with 31% of global population and also requires very costly and time consuming hospital treatment. From CVD 42% of the deaths are because of the coronary heart disease (CHD) which we research in this thesis and by using AI and/or ML to build a Computer Aided Diagnosis (CAD) diagnosis system which offers optimal predictability. CHD is the cause of many other CVDs and is incriminated for brain stroke too.
CHD is the stenosis of the main heart arteries caused when a wax substance called plaque builds up inside the coronary arteries. narrowing the coronary arteries and reducing the flow to the heart, leading to serious heart problems or heart failure. The danger of the disease is the silent appearance. The causes are: the age, sex, high cholesterol levels, angina, abnormal blood pressure, the years as smoker, the number of smoking cigarettes per day, family history, high fasting blood sugar, anxiety and the lack of exercise.
More specifically, in this thesis we research to find a reduced set of patient’s medical data, and test AI systems, ML algorithms for the optimal diagnosis of CHD classifying it into three levels of risk: Absence, Medium high, Very high risk, differentiating our research from the previous researches since 1988 where the classification is binary (absence or presence) and with requirement of many data expensive to be obtained. The classification with three levels of risk has not researched because of the complexity and the significant lack of data. This is the reason why the researchers use data after the patients took advanced heart examinations, such as stress test and fluoroscopy test which they are costly, time consuming and painful (sometimes). Consequently, these predictive systems with such wide generality and so advanced data do not offer significant help to the doctor because he can do the predictions by himself with very good accuracy.
We used the database from University of Cleveland which includes 298 patient cases, with 13 parameters per patient, used since 1988. Moreover, we used the patient’s datasets of University of California Irvine (UCI) machine learning repository, which have 4% missing data of the 15% patient cases. In order to increase the Cleveland’s database, we recovered the missing data of UCI’s database, using statistical data preprocessing. The result is to increase the Cleveland’s dataset by 21%. In collaboration with the cardiologist we constructed and proposed a new diagnosis dataset for each patient, including for each patient a subset of the existing until now parameters, such as: data from the interview answers, the biochemical blood test and from the electrocardiograph (ECG) test, excluding the parameters of stress test and fluoroscopy test.
We applied statistical data preprocessing on data and we processed them with the following AI and ML techniques: A) Adaptive Neuro-fuzzy Inference Systems (ANFIS) based on, i) Subtractive Clustering, ii) Fuzzy C Means, iii) Particle Swamp Optimization, iv) Genetic Algorithm, v) using datasets from PCA with all the above techniques again, B) Deep Artificial Neural Networks (ANN). The mission was to find which strategy will export diagnosis with the optimal accuracy.
After multiply adjustments on the above techniques a multilayer Neural Network was is the best. We created a unique appropriate weight initialization for the feed forward pass and for the scaled conjugate gradient descent algorithm, also adjusted the levels, the nodes and the split ratio. 74% accuracy - mean value for the three classes. Specifically, the class Absence, which is the most important for the patient’s safety on the scale of credibility based on ROC performance {Almost excellent, Very Good, Good, Mediocre, Worthless} has Very Good credibility. The classes Medium high and Very high risk have Good credibility. The supporting diagnosis system uses data from basic questions to the patient, simple biochemical examination and ECG, excluding the invasive—expensive-time consuming examinations such as the stress test and the fluoroscopy.
Τόπος: Λ - Κτίριο Επιστημών/ΗΜΜΥ, 141Π-98,141Θ-97, Αμφιθέατρο Κτιρίου Επιστημών
Έναρξη: 31/10/2017 16:00
Λήξη: 31/10/2017 17:00