Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Υπολογιστικές μέθοδοι εκμάθησης μοντέλων εντοπισμού μεταφορικής σημασίας από σώματα νεοελληνικών κειμένων

Pechlivanis Konstantinos

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/2C5C6EAD-312B-4D80-B99B-86E8B76319FA
Έτος 2017
Τύπος Μεταπτυχιακή Διατριβή
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Κωνσταντίνος Πεχλιβάνης, "Υπολογιστικές μέθοδοι εκμάθησης μοντέλων εντοπισμού μεταφορικής σημασίας από σώματα νεοελληνικών κειμένων", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2017 https://doi.org/10.26233/heallink.tuc.68185
Εμφανίζεται στις Συλλογές

Περίληψη

Σκοπός της διπλωματικής εργασίας είναι η ανάπτυξη μεθόδων αναγνώρισης μεταφορικής και γενικά μη-κυριολεκτικής χρήσης όρων, βασιζόμενοι στην υπόθεση ότι μια λέξη που χρησιμοποιείται μεταφορικά ανήκει σε διαφορετική κατηγορία από αυτή του κειμένου στο οποίο εμφανίζεται. Η ιδέα βασίζεται στην λογική εξόρυξης πληροφορίας από γλωσσικά μοντέλα, τα οποία χρησιμοποιούν γνωστές μεθόδους ταξινόμησης, χωρίς να απαιτείται προγενέστερη γνώση των μεταφορών ή άλλων σημασιολογικών πόρων. Στόχος αυτών των μοντέλων είναι η εξαγωγή του βαθμού κατά τον οποίο ένας όρος είναι χαρακτηριστικός σε κάποια κατηγορία. Αυτό συντελεί στον εντοπισμό λέξεων οι οποίες δεν ανήκουν σημασιολογικά στο κείμενο στο οποίο εμφανίζονται.Εξετάζοντας την ερευνητική μας πρόταση, αρχικά, συλλέξαμε σώματα κειμένων από τρεις ελληνικές εφημερίδες που μοιράζονται το περιεχόμενό τους στο διαδίκτυο. Με σκοπό την απόκτηση μια αρχικής ταξινόμησης για κάθε άρθρο, υιοθετήσαμε την ταξινόμηση που παρέχει το International Press Telecommunications Council (IPTC) χρησιμοποιώντας τις πιο ευρείες κατηγορίες. Η μοναδική επισημείωση στα δεδομένα εκπαίδευσης είναι οι κατηγορίες των άρθρων, οι οποίες έχουν ανατεθεί από τους εκδότες των εφημερίδων.Για την αξιολόγηση της μεθόδου μας έχουμε επισημειώσει 89 άρθρα. Η διαδικασία επισημείωσης περιλαμβάνει των εντοπισμό των όρων που χρησιμοποιούνται μεταφορικά. Η επισημείωση εκπονήθηκε αρχικά από έναν επισημειωτή και στη συνέχεια, ένας ειδικευμένος επισημειωτής διόρθωσε τις ανακολουθίες που προέκυψαν, με σκοπό τη δημιουργία ενός σώματος κειμένων για τη δοκιμή του συστήματος. H διαδικασία επισημείωσης σχεδιάστηκε και εκπονήθηκε με τη χρήση της πλατφόρμας του Ellogon.Στα πλαίσια αυτής τη έρευνας, κάναμε χρήση της μετρικής Συχνότητα Όρων - Αντίστροφη Συχνότητα Εγγράφων (TF-IDF) με σκοπό τον εντοπισμό της χαρακτηριστικής κατηγορίας στην οποία ανήκει ένας όρος. Επιπλέον, αναλύσαμε την αλληλεπίδραση μεταξύ της μετρικής TF-IDF με άλλα χαρακτηριστικά λέξεων, όπως το μέρος του λόγου στο οποίο ανήκει, καθώς και τη συχνότητα εμφάνισής του στα διαφορετικά έγγραφα. Ένας όρος αποτελεί μια λέξη ή ένα n-γράμμα. Η κατηγοριοποίηση των όρων έγινε με τη χρήση μιας προσαρμοσμένης μορφής του Ταξινομητή Μέγιστης Πιθανοφάνειας.Η αξιολόγηση του συστήματος έγινε με την χρήση των μετρικών Precision, Recall και F1 -score. Η απόφαση μια επιτυχημένης ανίχνευσης λαμβάνει χώρα για κάθε όρο ξεχωριστά, ελέγχοντας αν είναι μη-κυριολεκτικής σημασίας. Τέλος, συγκρίναμε τα αποτελέσματα του συστήματος με ένα απλοϊκό μοντέλο, καθώς και με μια σχετική δουλειά που είχε υλοποιηθεί παλιότερα. Παρόλο που το μοντέλο μας δείχνει να είναι υπεργενικευμένο, ξεπερνάει σε απόδοση τα προαναφερθέντα.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά