Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Techniques for biological data feature aggregation for medical diagnosis and use of neural networks as classifiers

Kormpi Konstantina

Simple record


URIhttp://purl.tuc.gr/dl/dias/11F1649B-3469-49D8-9530-258F2F38D05C-
Identifierhttps://doi.org/10.26233/heallink.tuc.84018-
Languageen-
Extent135 pagesen
TitleTechniques for biological data feature aggregation for medical diagnosis and use of neural networks as classifiersen
TitleΤεχνικές εξαγωγής πληροφορίας από βιολογικά δεδομένα και χρήση νευρωνικών δικτύων ως ταξινομητές για ιατρική διάγνωσηel
CreatorKormpi Konstantinaen
CreatorΚορμπη Κωνσταντιναel
Contributor [Committee Member]Sergaki Eleftheriaen
Contributor [Committee Member]Σεργακη Ελευθεριαel
Contributor [Thesis Supervisor]Zervakis Michailen
Contributor [Thesis Supervisor]Ζερβακης Μιχαηλel
Contributor [Committee Member]Stavrakakis Georgiosen
Contributor [Committee Member]Σταυρακακης Γεωργιοςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
DescriptionΔιπλωματική εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης του Διπλώματος ΗΜΜΥ.el
Content SummaryCancer is a global problem as it is described in the World Cancer Report. Today’s technology can give approaches that reveal the cellular and molecular level of cancer. In a cancer disease sample such a cell biopsy to be processed, thousands of genes at a time can be subjected simultaneously for analysis in a single chip, called Microarray. Machine learning is a branch of artificial intelligence that employs a variety of statistical, probabilistic and optimization techniques that allows computers to “learn” from past examples and to detect hard-to-discern patterns from large, noisy or complex data sets. This capability is particularly well-suited to medical applications, especially those that depend on complex proteomic and genomic measurements. As a result, machine learning is frequently used in cancer diagnosis and detection. More recently machine learning has been applied to cancer prognosis and prediction. This latter approach is particularly interesting as it is part of a growing trend towards personalized, predictive medicine. Our goal was, firstly, to construct a framework for statistical analysis, description and visualization of real biological data and secondly, build a predictive model for binary classification of cancer based on machine learning algorithms and feature selection techniques. We use six algorithms of supervised machine learning such as Logistic Regression (LR), Linear Discriminant Analysis (LDA), k-Nearest Neighbors (KNN), Classification and Regression Trees (CART), Naïve Bayes (NB) and Linear Support Vector Machines (SVM) to be tested in different datasets of Cervical, Breast, Acute Myeloid Leukemia and Pancreatic cancer, publicly available on Gene Expression Omnibus platform. During the learning procedure, the data were split to validation and train sets. The train set, is used in 5-fold cross-validation for three different scenarios: on primary data, on standardized data, and finally on standardized data that have been transformed by the dimensionality reduction technique of Principal Component Analysis (PCA) and other feature reduction techniques. Finally we compare the results and use the validation dataset to evaluate our models’ predictions on unseen data. We end up with prediction accuracy: 100% of models trained with LR, NB and SVM on Cervical dataset, 90% of models built with LDA on Breast dataset, 95.4% of models trained with NB on AML dataset and 94.4% trained with LR Pancreatic dataset, respectfully. During the procedure, we compare the results of 5-fold cross-validation on each step and finally we estimate more evaluation metrics such as precision, sensitivity, f1-score and ROC curves, in order to extract useful insights. en
Content SummaryΗ Παγκόσμια Έκθεση για τον Καρκίνο περιγράφει την ασθένεια του καρκίνου σαν ένα παγκόσιο πρόβλημα. Η σημερινή τεχνολογία μπορεί να μας δώσει προσεγγίσεις που αποκαλύπτουν τον καρκίνο σε κυτταρικό και μοριακό επίπεδο. Σε ένα δείγμα καρκινικής νόσου όπως μια βιοψία κυττάρων, χιλιάδες γονίδια κάθε φορά μπορούν να υποβληθούν σε ανάλυση με την τεχνολογία μικροσυστοιχιών. Οι μικροσυστοιχίες βοηθούν στην ταυτόχρονη ανάλυση των προφίλ γονιδιακής έκφρασης ενός μεγάλου αριθμού γονιδίων σε ένα μόνο πείραμα. Η κατανόηση των προτύπων γονιδιακής έκφρασης μπορεί να βοηθήσει στη διάγνωση και διάκριση διαφόρων τύπων καρκίνου. Η μηχανική μάθηση είναι ένας κλάδος της τεχνιτής νοημοσύνης που χρησιμοποιεί μια ποικιλία τεχνικών στατιστικής, πιθανοτήτων και βελτιστοποίησης που επιτρέπουν στους υπολογιστές να "μαθαίνουν" από παλιά παραδείγματα και να ανιχνεύουν μορφές που είναι δύσκολο να διακρίνουν από μεγάλα, θορυβώδη ή σύνθετα σύνολα δεδομένων. Αυτή η ικανότητα είναι ιδιαίτερα κατάλληλη για ιατρικές εφαρμογές, ειδικά εκείνες που εξαρτώνται από σύνθετες πρωτεϊνικές και γονιδιακές μετρήσεις. Ως αποτέλεσμα, η μηχανική μάθηση χρησιμοποιείται συχνά στη διάγνωση και στον εντοπισμό του καρκίνου. Πιο πρόσφατα η μηχανική μάθηση έχει εφαρμοστεί στην πρόγνωση καρκίνου. Αυτή η τελευταία προσέγγιση είναι ιδιαίτερα ενδιαφέρουσα, καθώς αποτελεί μέρος μιας αυξανόμενης τάσης της προγνωστικής ιατρικής. Καταρχήν, ο στόχος μας ήταν να επεξεργαστουμε πραγματικά βιολογικά δεδομένα κάνοντας μια στατιστική ανάλυση, περιγραφή και οπτικοποίηση και στη συνέχεια να εκπαιδεύσουμε μοντέλο προβλέψεων για δυαδική ταξινόμηση του καρκίνου, βασισμένο σε αλγόριθμους μηχανικής μάθησης και τεχνικές εξαγωγής γνωρισμάτων. Χρησιμοποιούμε έξι αλγόριθμους μηχανικής μάθησης εποπτείας, όπως Logistic Regression (LR), Linear Discriminant Analysis (LDA), k-Nearest Neighbors (KNN), Classification and Regression Trees (CART), Naïve Bayes (NB) και Linear Support Vector Machines (SVM) σε διαφορετικά δεδομένα γονιδιακής έκφρασης για τον καρκίνο του τραχήλο, του μαστού, της οξείας μυελοειδούς λευχαιμίας και του καρκίνου στο πάγκρεας, όλα διαθέσιμα δημοσίως στην πλατφόρμα GEO. Κατά τη διάρκεια της διαδικασίας, τα δεδομένα χωρίστηκαν τυχαία σε δεδομένα εκπαίδευσης (train set) των αλγορίθμων και σε δεδομένα για τις τελικές προβλέψεις (validation set). Το train set χρησιμοποείται με τη μέθοδο 5-fold cross-validation για τρία διαφορετικά σενάρια: στα αρχικά δεδομένα, σε δεδομένα που έχουν επεξεργαστεί με την μέθοδο standardization και τελικά σε επεξεργασμένα δεδομένα που έχουν μετασχηματιστεί από τεχνικές εξαγωγής και μείωσης γνωρισμάτων όπως Principal Component Analysis (PCA). Στο τέλος αφού εκπαιδεύσουμε τα μοντέλα, χρησιμοποιούμε το validation set για αξιολογήσουμε την απόδοση των μοντέλων μας στις προβλέψεις. Καταλήγουμε να έχουμε ποσοστά ακρίβειας (accuracy) : 100% στα μοντέλα που εκπαιδευτηκαν με LR, NB και SVM στα δεδομένα γονιδιακής έκφρασης του καρκίνου του τραχήλου της μήτρας, 90% στα μοντέλα που εκπαιδευτηκαν με LDA στα δεδομένα γονιδιακής έκφρασης του καρκίνου του μαστού, 95,4% στα μοντέλα που εκπαιδευτηκαν με NB στα δεδομένα γονιδιακής έκφρασης της οξείας μυελοειδούς λευχαιμίας και 94,4% στα μοντέλα που εκπαιδευτηκαν με LR στα δεδομένα γονιδιακής έκφρασης του καρκίνου στο πάγκρεας. Επιπλέον, κατά τη διάρκεια της διαδικασίας εξετάζουμε τα μοντέλα μας για να αξιολογήσουμε περαιτέρω μετρήσεις ταξινόμησης όπως η ακρίβεια (precision), η ευαισθησία (sensitivity) , η βαθμολογία f1 (f1-score) και οι καμπύλες ROC. Τέλος, συγκρίνουμε τα αποτελέσματα του 5-fold cross-validation σε κάθε σενάριο, προκειμένου να εξάγουμε χρήσιμες γνώσεις. el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2019-12-09-
Date of Publication2019-
SubjectΜηχανική μάθησηel
SubjectMachine learningen
SubjectMicroarray chip analysisen
Bibliographic CitationKonstantina Kormpi, "Techniques for biological data feature aggregation for medical diagnosis and use of neural networks as classifiers", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019en
Bibliographic CitationΚωνσταντίνα Κορμπή, "Τεχνικές εξαγωγής πληροφορίας από βιολογικά δεδομένα και χρήση νευρωνικών δικτύων ως ταξινομητές για ιατρική διάγνωση", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019el

Available Files

Services

Statistics