Adaptive neuro-fuzzy inference systems (ANFIS) applied on medical diagnosisAdaptive neuro-fuzzy inference systems (ANFIS) applied on medical diagnosisΕφαρμογή προσαρμοστικού νευρωνκού-ασαφούς αλγορίθμου συμπερασμού για διάγνωση σε ιατρικά προβλήματα Διπλωματική Εργασία Diploma Work 2017-11-012017enThe last thirty years Artificial Intelligence (AI) and Machine Learning (ML) used for computer systems to make fast, inexpensive, non invasive medical predictions and have a crucial importance as supporting tools for the doctors. Since 2013, cardiovascular disease (CVD) is the number one killer factor in the world with 31% of global population and also requires very costly and time consuming hospital treatment. From CVD 42% of the deaths are because of the coronary heart disease (CHD) which we research in this thesis and by using AI and/or ML to build a Computer Aided Diagnosis (CAD) diagnosis system which offers optimal predictability. CHD is the cause of many other CVDs and is incriminated for brain stroke too. CHD is the stenosis of the main heart arteries caused when a wax substance called plaque builds up inside the coronary arteries. narrowing the coronary arteries and reducing the flow to the heart, leading to serious heart problems or heart failure. The danger of the disease is the silent appearance. The causes are: the age, sex, high cholesterol levels, angina, abnormal blood pressure, the years as smoker, the number of smoking cigarettes per day, family history, high fasting blood sugar, anxiety and the lack of exercise. In this Thesis we examine the problem of Computer Aided Diagnosis (CAD) of Coronary Heart Disease (CHD), which classifies patients as well as possible with respect to the optimal minimization of the cost of diagnosis, the speed and the less stress and pain for the patients. By using AI and/or ML techniques our goal is to classify the patients in three levels of risk: Absence - Medium high - Very high risk differentiating our research from the previous researches since 1988 where the classification was binary (absence or presence). Then to achieve better results we went deeper into the data science and by using various data preprocessing techniques we aim to construct different datasets of patient’s diagnosis data in order to find which dataset offers the best result. Furthermore, based on the above proposed concept we set apart our method even more by proposing a new dataset of patient’s diagnosis data which is different than the data of previous researches. To achieve this, we consulted by cardiologist and used data preprocessing techniques. We used the database from University of Cleveland which includes 298 patient cases, with 13 parameters per patient, used since 1988. Moreover, we used the patient’s datasets of University of California Irvine (UCI) machine learning repository, which have 4% missing data of the 15% patient cases. In order to increase the Cleveland’s database, we recovered the missing data of UCI’s database, using statistical data preprocessing. The result is to increase the Cleveland’s dataset by 21%. In collaboration with the cardiologist we constructed and proposed a new diagnosis dataset for each patient, including for each patient a subset of the existing until now parameters, such as: data from the interview answers, the biochemical blood test and from the electrocardiograph (ECG) test, excluding the parameters of stress test and fluoroscopy test. We applied statistical data preprocessing on data and we processed them with the following AI and ML techniques: A) Adaptive Neuro-fuzzy Inference Systems (ANFIS) based on, i) Subtractive Clustering, ii) Fuzzy C Means, iii) Particle Swamp Optimization, iv) Genetic Algorithm, v) using datasets from PCA with all the above techniques again, B) Artificial Neural Networks (ANN). The mission was to find which strategy will export diagnosis with the optimal accuracy. After multiply adjustments on the above techniques a multilayer Neural Network was is the best. We created a unique appropriate weight initialization for the feed forward pass and for the scaled conjugate gradient descent algorithm, also adjusted the levels, the nodes and the split viii ratio. 74% accuracy - mean value for the three classes. Specifically, the class Absence, which is the most important for the patient’s safety on the scale of credibility based on ROC performance {Almost excellent, Very Good, Good, Mediocre, Worthless} has Very Good credibility. The classes Medium high and Very high risk have Good credibility. The supporting diagnosis system uses data from basic questions to the patient, simple biochemical examination and ECG, excluding the invasive-expensive-time consuming examinations such as the stress test and the fluoroscopy. Τα τελευταία τριάντα χρόνια με την είσοδο της μηχανικής μάθησης (ΜΜ) και της τεχνητής νοημοσύνης (ΤΝ) στο κλάδο των ιατρικών επιστημών η έγκαιρη, μη δαπανηρή και μη επεμβατική ιατρική διάγνωση με αυτοματοποιημένα συστήματα αποτελεί σημαντικότατο υποστηρικτικό ιατρικό εργαλείο. Η καρδιαγγειακή πάθηση από το 2003 αποτελεί την πιο θανατηφόρα αιτία με ετήσιο ποσοστό θνησιμότητας 31% του παγκόσμιου πληθυσμού, ενώ επίσης για τους νοσούντες απαιτεί από τις πιο δαπανηρές και χρονοβόρες νοσοκομειακές θεραπείες. Εκ του 31% του αποθανόντος πληθυσμού λόγω καρδιαγγειακών παθήσεων το 42% οφείλεται στην στεφανιαία νόσο την οποία αποσκοπούμε να προβλέψουμε βέλτιστα με υπολογιστικό μοντέλο ΤΝ ή/και ΜΜ στην παρούσα διπλωματική. Αυτή η νόσος είναι και η γενεσιουργός αιτία για πληθώρα άλλων καρδιαγγειακών παθήσεων καθώς και για εγκεφαλικό επεισόδιο. Ως στεφανιαία νόσος ορίζεται η στένωση των βασικών καρδιακών αρτηριών η οποία προκαλείται από τη συσσώρευση αθηρωματικού υλικού στον αυλό τους και παρεμποδίζει την αιμάτωση του καρδιακού μυ με τελικό αποτέλεσμα την καρδιακή ανεπάρκεια. Η επικινδυνότητα αυτής της νόσου έγκειται στην σιωπηλή εμφάνιση της. Παράμετροι και συμπτώματα που συσχετίζονται με την νόσο αυτή είναι η ηλικία, το φύλο, η υψηλή χοληστερίνη, ο στηθαγχικός πόνος, η αφύσικη αρτηριακή πίεση, η υπέρταση, το οικογενειακό ιστορικό, τα έτη ως καπνιστής, το πλήθος τσιγάρων ημερησίως, το υψηλό σάκχαρο στο αίμα, το άγχος και η έλλειψη άσκησης. Πιο συγκεκριμένα, στην παρούσα διπλωματική εργασία ερευνούμε την εύρεση του βέλτιστου ελάχιστου σετ ιατρικών δεδομένων για τον ασθενή τα οποία με χρήση αλγόριθμων ΤΝ και ΜΜ πετυχαίνουν διάγνωση βέλτιστης κατηγοριοποίησης της στεφανιαίας νόσου ασθενών για τα τρία στάδια: Απουσία κινδύνου, Μέτρια Υψηλό, ix Πολύ Υψηλό κίνδυνο, αντί αποκλειστικά για δύο (Απουσία ή παρουσία της νόσου) όπως συστηματικά από το 1988 μέχρι σήμερα είναι ο στόχος των αντίστοιχων ερευνητικών εργασιών. Στη συνέχεια, για να επιτύχουμε καλύτερα αποτελέσματα, προχωρήσαμε βαθύτερα στην επιστήμη των δεδομένων και χρησιμοποιώντας διάφορες τεχνικές προεπεξεργασίας δεδομένων, στοχεύουμε στην κατασκευή διαφορετικών συνόλων δεδομένων των δεδομένων διάγνωσης του ασθενούς προκειμένου να εντοπίσουμε ποιο σύνολο δεδομένων προσφέρει το καλύτερο αποτέλεσμα. Επιπλέον, με βάση την παραπάνω προτεινόμενη ιδέα διαφοροποιήσαμε ακόμη περισσότερο τη μέθοδο μας, προτείνοντας ένα νέο σύνολο δεδομένων για τη διάγνωση του ασθενούς, το οποίο είναι διαφορετικό από τα δεδομένα προηγούμενων ερευνών. Για να το επιτύχουμε αυτό, πραγματοποιήσαμε διαβουλεύσεις με καρδιολόγο και χρησιμοποιήσαμε τεχνικές προεπεξεργασίας δεδομένων. Η εν λόγω διάγνωση κατηγοριοποίησης δεν έχει ερευνηθεί μέχρι στιγμής λόγω του μεγάλου πλήθος των παραμέτρων διάγνωσης και της πολυπλοκότητας του συνδυασμού τους. Η κατηγοριοποίηση γίνεται από τους γιατρούς λαμβάνοντας υπόψη προχωρημένες εξετάσεις των ασθενών που είναι χρονοβόρες και δαπανηρές, όπως το τεστ κοπώσεως και το σπινθηρογράφημα του μυοκαρδίου. Όταν είναι διαθέσιμες αυτές οι εξετάσεις, τα υπολογιστικά μοντέλα πρόβλεψης ασθένειας δεν συμβάλουν όμως σημαντικά ή και καθόλου στο ιατρικό συμπέρασμα. Στους πειραματισμούς μας, χρησιμοποιούμε τη βάση δεδομένων 298 ασθενών του νοσοκομείου του Cleveland, η οποία περιλαμβάνει για κάθε ασθενή 13 τιμές σχετικών με την πάθηση. Αυτές οι παράμετροι χρησιμοποιούνται για τη σχετική διάγνωση από το 1988. Επιπλέον χρησιμοποιήσαμε τις βάσεις ιατρικών δεδομένων από το αποθετήριο του πανεπιστημίου University of California, Irvine (UCI). Αυτό διαθέτει δεδομένα (όχι πλήρη) με απολεσθείσες τιμές δεδομένων της τάξης του 4% για το 15% του πληθυσμού των ασθενών της βάσης. Μέσω προσωπικής παρατήρησης ελέγχτηκαν ένα προς ένα τα δεδομένα και κατόπιν μέσω στατιστικής ανάλυσης δεδομένων συμπληρώσαμε τις κενές τιμές των παραμέτρων. Τα δεδομένα αυτών των ασθενών ενσωματώθηκαν στη βάση δεδομένων ασθενών του Cleveland για να αυξηθεί ο πληθυσμός των ασθενών κατά 21%. Με τη συμβολή του συνεργάτη μας καρδιολόγου δημιουργούμε και προτείνουμε δικό μας υποσύνολο παραμέτρων διάγνωσης για τον κάθε ασθενή, με κριτήριο οι τιμές αυτών να προκύπτουν από απλές και οικονομικές ιατρικές εξετάσεις, όπως του βιοχημικού τεστ αίματος, του ηλεκτροκαρδιογραφήματος και τις απαντήσεις της συνέντευξης του ασθενή προς τον καρδιολόγο. Δεν συμπεριλάβαμε το τεστ κοπώσεως και το σπινθηρογράφημα του μυοκαρδίου. Αρχικά, προκειμένου να εξεταστεί περεταίρω μείωση των παραμέτρων διάγνωσης, επεξεργαστήκαμε τα δεδομένα μας με μεθόδους στατιστικής προεπεξεργασίας ανάλυσης δεδομένων με τον αλγόριθμο Κύριων Συνιστωσών και στη συνέχεια τα χρησιμοποιήσαμε για τους παρακάτω ευφυείς αλγόριθμους: Α) ΝεύροΑσαφή συστήματα συμπερασμού (ΑNFIS) βασισμένα σε i) subtractive ομαδοποίηση, ii) ομαδοποίηση fuzzy c means, iii) αλγόριθμο Βελτιστοποίησης Σμήνους Σωματιδίων για τη βελτίωση του ANFIS iv) Γενετικό Αλγόριθμο σε Νεύρο-Ασαφή συστήματα συμπερασμού για τη βελτίωση του ANFIS και Β): εφαρμογή Νευρωνικών Δικτύων πολλαπλών επιπέδων (ΑΝΝ), με σκοπό να βρεθεί ένα διαγνωστικό σύστημα με τη βέλτιστη ακρίβεια γενίκευσης. Μετά από πολλαπλές παραμετροποιήσεις όλων των παραπάνω πειραμάτων το Νευρωνικό Δίκτυο πολλαπλών επιπέδων με τη δημιουργία μιας συνδυαστικής τεχνικής για την αρχικοποίηση των βαρών και με συνάρτηση μεταφοράς κλιμακωτών συζυγών κλήσεων ανάστροφης διάδοσης πέτυχε το βέλτιστο αποτέλεσμα. Για το μειωμένο υποσύνολο δεδομένων ανά ασθενή που προτείνουμε, η βέλτιστη ακρίβεια γενίκευσης είναι 74% μέσος όρος από τις τρεις κατηγορίες κινδύνου. Για την κατηγορία Απουσία κινδύνου που είναι η πιο σημαντική διότι είναι το επίπεδο ασφαλείας για τον ασθενή έχουμε Πολύ Καλή πρόβλεψη κατά ROC το οποίο περιλαμβάνει την αξιολόγηση {Σχεδόν Άριστη, Πολύ Καλή, Καλή, Μέτρια, Άνευ Αξίας}. Για τις κατηγορίες Μέτρια Υψηλό και Πολύ Υψηλό κίνδυνο έχει καλή προβλεψιμότητα το μοντέλο. Το συγκεκριμένο σύστημα ιατρικής υποβοήθησης κάνει χρήση δεδομένων από τις απαντήσεις απλών ερωτήσεων προς τον ασθενή, το βιοχημικό τεστ αίματος και το καρδιογράφημα, εξαιρώντας δεδομένα από επεμβατικές χρονοβόρες και δαπανηρές μεθόδους διάγνωσης. http://creativecommons.org/licenses/by-nc/4.0/Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών ΥπολογιστώνBaroutis_Nikolaos_Dip_2017.pdfChania [Greece]Library of TUC2017-11-01application/pdf2.2 MBfree Baroutis Nikolaos Μπαρουτης Νικολαος Zervakis Michalis Ζερβακης Μιχαλης Chalkiadakis Georgios Χαλκιαδακης Γεωργιος Sergaki Eleftheria Σεργακη Ελευθερια Sergaki Eleftheria Σεργακη Ελευθερια Πολυτεχνείο Κρήτης Technical University of Crete Data science Artificial intelligence Medical prediction Machine Learning