Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Adaptive credit scoring using local classification methods

Nikolaidis Dimitrios

Simple record


URIhttp://purl.tuc.gr/dl/dias/9FC4AE1A-7C6D-4BB5-AF3D-5E6B610FDA91-
Identifierhttps://doi.org/10.26233/heallink.tuc.94513-
Languageen-
Extent136 pagesen
TitleAdaptive credit scoring using local classification methods en
TitleΠροσαρμοστικά μοντέλα πιστοληπτικής αξιολόγησης μέσω τοπικών μεθόδων ταξινόμησηςel
CreatorNikolaidis Dimitriosen
CreatorΝικολαιδης Δημητριοςel
Contributor [Thesis Supervisor]Doumpos Michailen
Contributor [Thesis Supervisor]Δουμπος Μιχαηλel
Contributor [Committee Member]Zopounidis Konstantinosen
Contributor [Committee Member]Ζοπουνιδης Κωνσταντινοςel
Contributor [Committee Member]Pasiouras Fotiosen
Contributor [Committee Member]Πασιουρας Φωτιοςel
Contributor [Committee Member]Grigoroudis Evangelosen
Contributor [Committee Member]Γρηγορουδης Ευαγγελοςel
Contributor [Committee Member]Gaganis Chrysovalantisen
Contributor [Committee Member]Γαγανης Χρυσοβαλαντηςel
Contributor [Committee Member]Atsalakis Georgiosen
Contributor [Committee Member]Ατσαλακης Γεωργιοςel
Contributor [Committee Member]Lemonakis, Christosen
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Production Engineering and Managementen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Μηχανικών Παραγωγής και Διοίκησηςel
Content SummaryDespite the advances in machine learning methods which are also applied in credit scoring with overall positive results, there are still very important unresolved issues, pertaining not only to academia but to practitioners and the industry as well, such as model drift as an inevitable consequence of population drift and the strict regulatory obligations for transparency and interpretability of the automated profiling methods. We present a novel adaptive behavioral credit scoring scheme which uses online training for each incoming inquiry (a borrower) by identifying a specific region of competence to train a local model. We compare different classification algorithms i.e. logistic regression with state of the art machine learning methods (random forests and gradient boosting trees) that have shown promising results in the literature machine learning). Our data sample has been derived from a proprietary credit bureau database and spans a period of 11 consequent years with quarterly sampling frequency consisting of more than 3,520,000 record-month observations. Rigorous performance measures used in credit scoring literature and practice (such as AUROC and H-Measure) indicate that our approach deals effectively with population drift and that local models outperform their corresponding global ones in all cases. Furthermore, when using simple local classifiers such as logistic regression we can achieve comparable results with the global machine learning ones which are considered “black box” methodsen
Content SummaryΤο πρόβλημα της ασυμμετρίας της πληροφορίας (information asymmetry) έχει μελετηθεί εκτενώς όπως και οι συνέπειές του στο χρηματοπιστωτικό χώρο. Έτσι η ανταλλαγή πληροφοριών και δεδομένων οικονομικής συμπεριφοράς, μέσω μηχανισμών όπως τα γραφεία πίστης (Credit bureaus) λειτούργησε ως αντίβαρο στην ασυμμετρία αυτή και ως υποστηρικτικό εργαλείο στις πιστοδοτικές αποφάσεις. Από το τα τέλη του 19ου αιώνα που λειτούργησε το πρώτο γραφείο πίστης Dun & Bradstreet, αναπτύχθηκαν μεθοδολογίες για την υποστήριξη της πιστοληπτικής αξιολόγησης υποψηφίων δανειοληπτών. Η βασικότερη ίσως μεθοδολογία των γραφείων πίστης διεθνώς είναι η πιστοληπτική βαθμολόγηση (credit scoring) και συνίσταται στη χρήση στατιστικών και αλγοριθμικών μεθόδων που αποσκοπούν στο μετασχηματισμό των δεδομένων σε αριθμητικές μετρήσεις οι οποίες μπορούν να χρησιμοποιηθούν για την αυτοματοποιημένη "κατάρτιση προφίλ" υποψηφίων δανειοληπτών. Μεθοδολογικά η πιστοληπτική βαθμολόγηση αρχικά στηρίζονταν σε αμιγώς στατιστικές προσεγγίσεις (π.χ. λογιστική παλινδρόμηση, δέντρα αποφάσεων κλπ), ωστόσο η σχετικά πρόσφατη "έκρηξη" των μεθόδων μηχανικής μάθησης (machine learning) οδήγησε σε αντίστοιχη ανάπτυξη των σχετικών μεθόδων και υποδειγμάτων που χρησιμοποιούνται στην πιστωτική βαθμολόγηση. Παρόλα αυτά η εφαρμογή αυτών των μεθόδων συναντά θεωρητικά αλλά και πρακτικά προβλήματα, το βασικότερο των οποίων είναι η πληθυσμιακή μετατόπιση (population drift): Όπως όλα τα μοντέλα εκτίμησης (Predictive models) έτσι και τα υποδείγματα πιστοληπτικής βαθμολόγησης αντιμετωπίζουν το πρόβλημα της πληθυσμιακής μετατόπισης (population drift), όταν οι στατιστικές κατανομές του υπό μοντελοποίηση πληθυσμού, αναπόφευκτα, μεταβάλλονται στο χρόνο. Αυτό το πρόβλημα αντιμετωπίζεται με τη διαρκή παρακολούθηση (Monitoring) των επιδόσεων των υποδειγμάτων (Performance measures) και με τις κατάλληλες προσαρμογές όταν απαιτείται. Λαμβάνοντας υπόψη το γεγονός ότι για την ανάπτυξή τέτοιων μοντέλων χρειάζονται δεδομένα κατ' ελάχιστο 2 ετών και προθέτοντας και τον απαιτούμενο χρόνο υλοποίησης και θέσης σε παραγωγική λειτουργία, σε πρακτικό επίπεδο εντείνεται ακόμα περισσότερο το πρόβλημα της πληθυσμιακής μετατόπισης. Στην παρούσα διατριβή προτείνεται η αντιμετώπιση του προβλήματος της πληθυσμιακής μετατόπισης με αυτόματη και δυναμική προσαρμογή των υποδειγμάτων βαθμολόγησης (dynamic adaptation) με χρήση τοπικών μεθόδων ταξινόμησης (local classification). Συγκεκριμένα το προτεινόμενο σχήμα συνίσταται στον υπολογισμό της πιστοληπτικής βαθμολόγησης χρησιμοποιώντας μεθόδους Lazy learning για κάθε ένα εισερχόμενο αίτημα score (σημείο εισόδου ή query instance), χρησιμοποιώντας μόνο εκείνο το υποσύνολο των ομοειδών εγγραφών προς το εισερχόμενο σημείο (Instance selection, local region of competence). Η έννοια της ομοιότητας (similarity) καθορίζεται από την απόσταση (distance) με συγκεκριμένη μετρική (π.χ. ευκλείδια απόσταση) μεταξύ της εισερχόμενης εγγραφής και του n-διάστατου χώρου του συνόλου των εγγραφών (feature space), όπου είναι το πλήθος των διαφορετικών μεταβλητών (attributes ή characteristics), όπου n είναι το πλήθος των πεδίων κάθε εγγραφής. To υποσύνολο των ομοειδών εγγραφών κάθε εισερχόμενου σημείου προσδιορίζεται με τη μέθοδο των πλησιέστερων γειτόνων (kNN) . Έτσι κάθε γειτονιά χρησιμοποιείται ως σύνολο εκπαίδευσης (training set) ενός υποδείγματος πιστωτικής βαθμολόγησης αποκλειστικά για το συγκεκριμένο σημείο εισόδου. Συγκρίνονται μεθοδολογίες στατιστικές και μηχανικής μάθησης (λογιστική παλινδρόμηση που λαμβάνεται και ως σημείο αναφοράς, Random Forests και Gradient Boosting Trees), χρησιμοποιώντας πραγματικά δεδομένα γραφείου πίστης για ένα βάθος 11 ετών (2009-2019) ανά τρίμηνο με συνολικά 3,520,000 εγγραφές και 125 διαφορετικές μεταβλητές. Για τον υπολογισμό των μέτρων επίδοσης (performance measures) χρησιμοποιήθηκαν τα AUC and H-Measure με κατάλληλες στατιστικές μεθοδολογίες σύγκρισης διαφορετικών ταξινομητών (classifiers): Friedman’s aligned ranks σε συνδυασμό με το post-hoc Nemenyi test. Ειδικότερα διερευνήθηκαν οι εξής στατιστικές υποθέσεις: H1: 'Έχουν καλύτερες επιδόσεις οι τοπικές μέθοδοι (local classification methods) σε σχέση με τις καθολικές (global); H2: Υπάρχει σημαντικά στατιστική διαφοροποίηση μεταξύ των μεθόδων μάθησης και της λογιστικής παλινδρόμησης; H3: Επηρεάζει η επιλογή των γειτόνων με βάση την ομοιότητα (KNN) τα αποτελέσματα; Η διερεύνηση των ανωτέρω υποθέσεων καταδεικνύει ότι οι τοπικές μέθοδοι επιφέρουν κατά περίπτωση καλύτερα αποτελέσματα σε σχέση με τις καθολικές, ωστόσο η διαφορές είναι στατιστικά σημαντικές μόνο στην περίπτωση της λογιστικής παλινδρόμησης. Ιδιαίτερα ενδιαφέρον παρουσιάζει το γεγονός ότι, σε συμφωνία με τα ευρήματα της βιβλιογραφίας, οι μέθοδοι μηχανικής μάθησης που εφαρμόστηκαν είναι περίπου 6%-7% καλύτερες (με μετρική AUC) σε σχέση με την καθολική λογιστική παλινδρόμηση, ωστόσο η τοπική λογιστική παλινδρόμηση βρίσκεται περίπου στο ίδιο επίπεδο επιδόσεων με τις μεθόδους μηχανικής μάθησης. Τέλος η επιλογή γειτόνων με βάση την ομοιότητα ως προς το σημείο εισόδου αποδεικνύεται ότι φέρει σημαντική βελτίωση στην επίδοση, σε σχέση με την επιλογή τυχαίων σημείων χωρίς να λαμβάνεται υπόψη η γειτνίαση.el
Type of ItemΔιδακτορική Διατριβήel
Type of ItemDoctoral Dissertationen
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2023-01-16-
Date of Publication2022-
SubjectPredictive modelingen
Bibliographic CitationDimitrios Nikolaidis, "Adaptive credit scoring using local classification methods ", Doctoral Dissertation, School of Production Engineering and Management, Technical University of Crete, Chania, Greece, 2023en
Bibliographic CitationΔημήτριος Νικολαΐδης, "Προσαρμοστικά μοντέλα πιστοληπτικής αξιολόγησης μέσω τοπικών μεθόδων ταξινόμησης", Διδακτορική Διατριβή, Σχολή Μηχανικών Παραγωγής και Διοίκησης, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2023el

Available Files

Services

Statistics