Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Δημιουργία μουσικής με χρήση βαθιάς μάθησης

Sotiropoulou Ileanna

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/4EF1404E-A438-4147-8B51-79CA144C6D19
Έτος 2021
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Ιλεάννα Σωτηροπούλου, "Δημιουργία μουσικής με χρήση βαθιάς μάθησης", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021 https://doi.org/10.26233/heallink.tuc.90298
Εμφανίζεται στις Συλλογές

Περίληψη

Η μηχανική μάθηση και ιδιαίτερα οι μέθοδοι βαθιάς μάθησης, έχουν εφαρμοστεί σε περίπλοκα προβλήματα επεξεργασίας σήματος με αξιοσημείωτα αποτελέσματα. Πρόσφατες καινοτομίες στη σύνθεση ήχου βασίζονται στη χρήση πολύ βαθιών νευρωνικών δικτύων για τη μοντελοποίηση της ομιλίας απευθείας στο πεδίο του ήχου. Στην παρούσα διπλωματική εργασία, διερευνούμε τη σύνθεση μουσικής, αξιοποιώντας τα δίκτυα WaveNet και WaveRNN ως κωδικοποιητές (vocoders). Επιπλέον, διερευνούμε τη δυνατότητα του WaveNet να αποτυπώνει μοτίβα διάθεσης και να δημιουργεί συναισθηματική μουσική. Πριν από την επιλογή ενός βέλτιστου συνόλου παραμέτρων για κάθε μοντέλο, ήταν σημαντικό να ληφθούν υπόψη οι φασματικές και δομικές διαφορές μεταξύ των σημάτων ομιλίας και μουσικής. Όσον αφορά τους κωδικοποιητές, χρησιμοποιήσαμε φασματογράμματα mel ως ετικέτες για την ανακατασκευή ήχου. Το εξαρτώμενο από τη διάθεση δίκτυο αντίθετα, δεν έλαβε καμία χωρική πληροφορία και αφέθηκε να παράγει πρωτότυπο ήχο εξαρτώμενο μόνο από μία ετικέτα διάθεσης. Τα μοντέλα εκπαιδεύτηκαν εντατικά για τουλάχιστον 9 ημέρες με τον κωδικοποιητή WaveNet να συγκλίνει μετά από 19 ημέρες. Οι παραχθείσες κυματομορφές αξιολογήθηκαν υποκειμενικά από ανθρώπινους κριτές, καθώς και αντικειμενικά μέσω του αλγορίθμου PESQ. Επιπλέον, οι ερωτηθέντες κλήθηκαν να μαντέψουν τη διάθεση δειγμάτων που είχαν παραχθεί από το μοντέλο με προκαθορισμένη διάθεση κατά το στάδιο της σύνθεσης. Ενώ το WaveRNN αποδείχθηκε τελικά ακατάλληλο για τη φύση του προβλήματός μας, οι κυματομορφές που έχουν ανακατασκευαστεί με το WaveNet είναι σχεδόν πανομοιότυπες με τις πρωτότυπες και επιτυγχάνουν Μέσες Βαθμολογίες Γνώμης σε 5-βάθμια κλίμακα (MOS) που ξεπερνούν το 4,0 τόσο στην υποκειμενική όσο και στην αντικειμενική αξιολόγηση. Αξίζει επίσης να σημειωθεί πως η πλειονότητα των κριτών προέβλεψε σωστά τις προκαθορισμένες διαθέσεις και των τεσσάρων κομματιών. Με βάση τα παραπάνω θετικά ευρήματα, αναμένουμε πως, με επιπρόσθετη καθοδήγηση, το WaveNet θα μπορεί να εντοπίζει συναισθηματικά στοιχεία και να δημιουργεί με αυτόματο τρόπο μουσική με σαφή την παρουσία ανθρώπινου συναισθήματος.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά