Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Heterogeneous computing for large-scale linkage-disequilibrium analyses on the Aris supercomputer

Theodoris Charalabos

Simple record


URIhttp://purl.tuc.gr/dl/dias/A81D9990-AD11-489D-90B6-CD763D806898-
Identifierhttps://doi.org/10.26233/heallink.tuc.87871-
Languageen-
Extent6 megabytesen
Extent73 pagesen
TitleHeterogeneous computing for large-scale linkage-disequilibrium analyses on the Aris supercomputer en
TitleΕτερογενής υπολογισμός για τη μελέτη της ανισορροπίας γενετικής σύνδεσης σε αναλύσεις μεγάλης κλίμακας με τη χρήση του υπερυπολογιστή Arisel
CreatorTheodoris Charalabosen
CreatorΘεοδωρης Χαραλαμποςel
Contributor [Thesis Supervisor]Dollas Apostolosen
Contributor [Thesis Supervisor]Δολλας Αποστολοςel
Contributor [Committee Member]Alachiotis Nikolaosen
Contributor [Committee Member]Αλαχιωτης Νικολαοςel
Contributor [Committee Member]Samoladas Vasilisen
Contributor [Committee Member]Σαμολαδας Βασιληςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
Content SummaryLinkage disequilibrium (LD) is the non-random association between alleles at different loci. In the field of Genomics, due to several breakthroughs in DNA extraction and sequencing technologies, huge databanks of genomic data have been created, and continue to grow every day. Along with said data, grows the need for a highly-performing solution in analyzing them. The prevailing analysis method of calculation for the LD in genomes uses single nucleotide polymorphisms (SNPs) to detect the absence and/or presence of minor alleles. Most software implementations to-date are not yet capable to efficiently manage the expected time and memory requirements of future large-scale genomic analyses. To answer the need for fast, scalable genomic analysis, we engineered and created a standalone software, qLD (quickLD) https://github.com/StrayLamb2/qLD. qLD relies on prior observations that a high-performance approach on LD can utilize general matrix multiplications. Therefore, existing optimized computational kernels that calculate LD are employed. Alongside the optimized kernels, qLD applies memory-aware techniques to lower memory requirements and parallel execution using both CPU and GPU to reduce execution times even more. qLD in single-thread execution delivers up to 28x faster processing than the current state-of-the-art software implementation when run on the same CPU and up to 44x when the computation is offloaded to a GPU. When used in multi-threaded executions, we observed speedups of up to 60x against the same state-of-the-art software, employing the same number of threads. qLD also addresses a missing feature of state-of-the-art tools, the ability to quantify allele associations between arbitrarily distant loci, thereby facilitating the evaluation of long-range LD and the detection of co-evolved genes. We showcase qLD on the analysis of 22,554 complete SARS-CoV-2 genomes. en
Content SummaryΗ Ανισορροπία Γενετικής Σύνδεσης (LD) είναι η μη τυχαία συσχέτιση μεταξύ αλληλόμορφων σε διαφορετικούς τόπους στο γονιδίωμα. Στον τομέα της Γονιδιωματικής, λόγω των τελευταίων ανακαλύψεων στην τεχνολογία εξαγωγής και προσδιορισμού DNA, έχουν δημιουργηθεί τεράστιες τράπεζες γονιδιωματικών δεδομένων, οι οποίες αυξάνουν τον αριθμό των καταχωρήσεών τους καθημερινά. Παράλληλα, δημιουργείται η ανάγκη για την αποδοτική ανάλυσή τους με βάση τα νέα μεγέθη. Η επικρατούσα μέθοδος ανάλυσης για τον υπολογισμό του LD στα γονιδιώματα χρησιμοποιεί πολυμορφισμούς μονού νουκλεοτιδίου (SNPs) για την ανίχνευση της απουσίας ή/και παρουσίας δευτερευόντων αλληλίων. Οι κύριες υλοποιήσεις λογισμικού μέχρι σήμερα δεν είναι φτιαγμένες για να διαχειριστούν αποτελεσματικά τις επερχόμενες απαιτήσεις χρόνου/μνήμης των μελλοντικών αναλύσεων μεγάλης κλίμακας. Για την κάλυψη αυτής της ανάγκης, δημιουργήθηκε η αυτόνομη εφαρμογή qLD (quickLD) https://github.com/StrayLamb2/qLD. Το qLD βασίζεται στην παρατήρηση ότι το LD μπορεί να υπολογιστεί με μεγάλη απόδοση κάνοντας χρήση μεθόδων πολλαπλασιασμού πινάκων, και χρησιμοποιεί υπάρχοντες βελτιστοποιημένους υπολογιστικούς πυρήνες. Μαζί τους πυρήνες, το qLD χρησιμοποιεί τεχνικές διαχείρισης της μνήμης και δυνατότητα παράλληλης εκτέλεσης με ταυτόχρονη χρήση επεξεργαστή και κάρτας γραφικών, για περαιτέρω μείωση των χρόνων ανάλυσης. Σε εκτελέσεις ενός νήματος, το qLD επιτυγχάνει έως και 28 φορές ταχύτερη επεξεργασία από το τρέχον πρόγραμμα τελευταίας τεχνολογίας σε εκτέλεση στον επεξεργαστή, ενώ με τη χρήση της κάρτας γραφικών η εκτέλεση είναι έως και 44 φορές ταχύτερη. Σε εκτελέσεις με πολλαπλά νήματα, επιτύχαμε 60 φορές ταχύτερη επεξεργασία έναντι του ίδιου λογισμικού, αξιοποιώντας τον ίδιο αριθμό νημάτων. Επιπροσθέτως, το qLD συμπληρώνει ένα κενό των εργαλείων τελευταίας τεχνολογίας, παρέχοντας τη δυνατότητα συσχέτισης μεταξύ αυθαίρετων, απομακρυσμένων περιοχών στο γονιδίωμα, διευκολύνοντας έτσι την αξιολόγηση του LD σε δεδομένα μεγάλης εμβέλειας, και την ανίχνευση των συν-εξελιγμένων γονιδίων. Για την παρουσίαση της ανάλυσης του qLD σε πραγματικά δεδομένα, χρησιμοποιήσαμε σετ δεδομένων με 22,554 πλήρη γονιδιώματα του SARS-CoV-2.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by-sa/4.0/en
Date of Item2020-12-29-
Date of Publication2020-
SubjectΥψηλή απόδοσηel
SubjectHigh performanceen
SubjectLinkage Disequilibriumen
SubjectΓενετική Ανισορροπίαel
SubjectHeterogeneous Computingen
SubjectΕτερογενής Υπολογισμόςel
SubjectΚάρτα Γραφικώνel
SubjectGPUen
SubjectΕπεξεργαστήςel
SubjectCPUen
Bibliographic CitationCharalabos Theodoris, "Heterogeneous computing for large-scale linkage-disequilibrium analyses on the Aris supercomputer", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2020en
Bibliographic CitationΧαράλαμπος Θεοδωρής, "Ετερογενής υπολογισμός για τη μελέτη της ανισορροπίας γενετικής σύνδεσης σε αναλύσεις μεγάλης κλίμακας με τη χρήση του υπερυπολογιστή Aris", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2020el

Available Files

Services

Statistics