Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Δημιουργία μουσικής με χρήση βαθιάς μάθησης

Sotiropoulou Ileanna

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/4EF1404E-A438-4147-8B51-79CA144C6D19-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.90298-
Γλώσσαen-
Μέγεθος4 megabytesen
Μέγεθος75 pagesen
ΤίτλοςMusic generation using deep learningen
ΤίτλοςΔημιουργία μουσικής με χρήση βαθιάς μάθησηςel
ΔημιουργόςSotiropoulou Ileannaen
ΔημιουργόςΣωτηροπουλου Ιλεανναel
Συντελεστής [Επιβλέπων Καθηγητής]Lagoudakis Michailen
Συντελεστής [Επιβλέπων Καθηγητής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Zervakis Michailen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Ζερβακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Diakoloukas Vasileiosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Διακολουκας Βασιλeioςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηMachine learning and specifically deep learning methods have been applied to complex signal processing problems with remarkable results. Recent breakthroughs in audio synthesis involve the use of end-to-end deep neural networks to model speech in the auditory domain. WaveNet is one such model that is currently considered state-of-the-art in speech synthesis. In this thesis, we investigate the use of WaveNet and WaveRNN as vocoders for musical synthesis. Furthermore, we investigate WaveNet's potential to capture emotive patterns and create emotional music. Prior to choosing an optimal set of parameters for each model, it was critical to consider the spectral and structural distinctions between speech and music signals. Regarding the vocoders, we employed mel spectrograms as temporal local labels for audio reconstruction. The mood-conditional network received no structural instruction and was instead left to generate original audio, conditioned only on a specific mood tag. The models were trained intensively for a minimum of 9 days with WaveNet vocoder converging after 19 days. Synthesized waveforms were evaluated subjectively by human judges, as well as objectively with the use of the PESQ algorithm. Additionally, the respondents were asked to evaluate the mood-conditional samples by guessing the mood of each track. While WaveRNN eventually proved unfit for the nature of our problem, WaveNet-reconstructed waveforms are extraordinarily similar to the originals, with their 5-scale Mean Opinion Scores exceeding 4.0 in both subjective and objective evaluation. Also, remarkably, the majority of responders accurately predicted the moods of all four tracks. This result leads us to anticipate that with additional instruction, WaveNet will be able to respond to emotional cues and automatically create music that is clearly influenced by the range of human emotions.en
ΠερίληψηΗ μηχανική μάθηση και ιδιαίτερα οι μέθοδοι βαθιάς μάθησης, έχουν εφαρμοστεί σε περίπλοκα προβλήματα επεξεργασίας σήματος με αξιοσημείωτα αποτελέσματα. Πρόσφατες καινοτομίες στη σύνθεση ήχου βασίζονται στη χρήση πολύ βαθιών νευρωνικών δικτύων για τη μοντελοποίηση της ομιλίας απευθείας στο πεδίο του ήχου. Στην παρούσα διπλωματική εργασία, διερευνούμε τη σύνθεση μουσικής, αξιοποιώντας τα δίκτυα WaveNet και WaveRNN ως κωδικοποιητές (vocoders). Επιπλέον, διερευνούμε τη δυνατότητα του WaveNet να αποτυπώνει μοτίβα διάθεσης και να δημιουργεί συναισθηματική μουσική. Πριν από την επιλογή ενός βέλτιστου συνόλου παραμέτρων για κάθε μοντέλο, ήταν σημαντικό να ληφθούν υπόψη οι φασματικές και δομικές διαφορές μεταξύ των σημάτων ομιλίας και μουσικής. Όσον αφορά τους κωδικοποιητές, χρησιμοποιήσαμε φασματογράμματα mel ως ετικέτες για την ανακατασκευή ήχου. Το εξαρτώμενο από τη διάθεση δίκτυο αντίθετα, δεν έλαβε καμία χωρική πληροφορία και αφέθηκε να παράγει πρωτότυπο ήχο εξαρτώμενο μόνο από μία ετικέτα διάθεσης. Τα μοντέλα εκπαιδεύτηκαν εντατικά για τουλάχιστον 9 ημέρες με τον κωδικοποιητή WaveNet να συγκλίνει μετά από 19 ημέρες. Οι παραχθείσες κυματομορφές αξιολογήθηκαν υποκειμενικά από ανθρώπινους κριτές, καθώς και αντικειμενικά μέσω του αλγορίθμου PESQ. Επιπλέον, οι ερωτηθέντες κλήθηκαν να μαντέψουν τη διάθεση δειγμάτων που είχαν παραχθεί από το μοντέλο με προκαθορισμένη διάθεση κατά το στάδιο της σύνθεσης. Ενώ το WaveRNN αποδείχθηκε τελικά ακατάλληλο για τη φύση του προβλήματός μας, οι κυματομορφές που έχουν ανακατασκευαστεί με το WaveNet είναι σχεδόν πανομοιότυπες με τις πρωτότυπες και επιτυγχάνουν Μέσες Βαθμολογίες Γνώμης σε 5-βάθμια κλίμακα (MOS) που ξεπερνούν το 4,0 τόσο στην υποκειμενική όσο και στην αντικειμενική αξιολόγηση. Αξίζει επίσης να σημειωθεί πως η πλειονότητα των κριτών προέβλεψε σωστά τις προκαθορισμένες διαθέσεις και των τεσσάρων κομματιών. Με βάση τα παραπάνω θετικά ευρήματα, αναμένουμε πως, με επιπρόσθετη καθοδήγηση, το WaveNet θα μπορεί να εντοπίζει συναισθηματικά στοιχεία και να δημιουργεί με αυτόματο τρόπο μουσική με σαφή την παρουσία ανθρώπινου συναισθήματος.el
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2021-09-27-
Ημερομηνία Δημοσίευσης2021-
Θεματική ΚατηγορίαΣύνθεση φωνήςel
Θεματική ΚατηγορίαSpeech synthesisen
Θεματική ΚατηγορίαΝευρωνικά δίκτυαel
Θεματική ΚατηγορίαNeural networksen
Θεματική ΚατηγορίαΜουσικήel
Θεματική ΚατηγορίαMusicen
Θεματική ΚατηγορίαΜηχανική μάθησηel
Θεματική ΚατηγορίαMachine learningen
Θεματική ΚατηγορίαΒαθιά Μάθησηel
Θεματική ΚατηγορίαDeep learningen
Θεματική ΚατηγορίαΑναγεννητικά νευρωνικά δίκτυαel
Θεματική ΚατηγορίαGenerative neural networksen
Θεματική ΚατηγορίαWaveneten
Θεματική ΚατηγορίαMusic Synthesisen
Θεματική ΚατηγορίαΣύνθεση μουσικήςel
Βιβλιογραφική ΑναφοράIleanna Sotiropoulou, "Music generation using deep learning", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021en
Βιβλιογραφική ΑναφοράΙλεάννα Σωτηροπούλου, "Δημιουργία μουσικής με χρήση βαθιάς μάθησης", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά