URI | http://purl.tuc.gr/dl/dias/945B72EC-BCF0-40B3-9E88-3CE687E418D9 | - |
Identifier | https://doi.org/10.26233/heallink.tuc.94861 | - |
Language | en | - |
Extent | 1.2 megabytes | en |
Extent | 68 pages | en |
Title | Study of gradient and stochastic gradient algorithms for Logistic Regression
| en |
Title | Μελέτη αλγορίθμων βαθμίδας και στοχαστικής βαθμίδας για το πρόβλημα της Logistic Regression | el |
Creator | Limnaios Emmanouil | en |
Creator | Λημναιος Εμμανουηλ | el |
Contributor [Thesis Supervisor] | Liavas Athanasios | en |
Contributor [Thesis Supervisor] | Λιαβας Αθανασιος | el |
Contributor [Committee Member] | Karystinos Georgios | en |
Contributor [Committee Member] | Καρυστινος Γεωργιος | el |
Contributor [Committee Member] | Samoladas Vasilis | en |
Contributor [Committee Member] | Σαμολαδας Βασιλης | el |
Publisher | Πολυτεχνείο Κρήτης | el |
Publisher | Technical University of Crete | en |
Academic Unit | Technical University of Crete::School of Electrical and Computer Engineering | en |
Academic Unit | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Content Summary | In this Diploma thesis, we study the Logistic Regression (LR), which is a widely used method for classification. We start by presenting the regularized LR cost function and computing its gradient and Hessian. It is well known that the LR is a convex function. Our main aim is to study the performance (convergence speed and solution accuracy) of deterministic versus stochastic algorithms for the minimization of the regularized LR cost function. First, we present two variants of the deterministic (full) gradient algorithm, one with a “naive” step-size and one with backtracking line search. Next, we move to the (Nesterov-type) accelerated full gradient algorithm. Then, we present variants of the stochastic gradient descent with step-sizes computed by various methods. For example,
(1) by exploiting the strong convexity property of the regularized LR,
(2) by using Armijo line-search using only a subset of the data determined by the batch size, (3) by using an ad-hoc line-search based on the angle of two successive stochastic gradients, etc. We test the performance of the various algorithms by using synthetic data (linearly separable and linearly non-separable). We observe that some stochastic variants (especially the variant which exploits the strong convexity of the regularized LR) perform quite well
during the first epochs, while the accelerated gradient algorithms become more accurate after the first epochs. In general, accelerated stochastic gradient-type algorithms are fast during the first epochs but not very accurate. Thus, more sophisticated accelerated stochastic algorithms must be pursued. | en |
Content Summary | Σε αυτή τη διπλωματική εργασία μελετάμε την Λογιστική Παλινδρόμηση (ΛΠ) η οποία χρησιμοποιείται ευρέως ως μέθοδος ταξινόμησης. Ξεκινάμε παρουσιάζοντας την κανονικοποιημένη συνάρτηση κόστους της ΛΠ και υπολογίζουμε τη βαθμίδα και την Εσσιανή της. Είναι γνωστό ότι η ΛΠ είναι κυρτή συνάρτηση. Κύριος στόχος μας είναι να μελετήσουμε την απόδοση (ταχύτητα σύγκλισης και ακρίβεια λύσης) ντετερμινιστικών έναντι στοχαστικών αλγόριθμων, για την ελαχιστοποίηση της κανονικοποιημένης συνάρτησης κόστους της ΛΠ. Πρώτα, παρουσιάζουμε δύο παραλλαγές του ντετερμινιστικού αλγόριθμου Gradient Descent, μία με "αφελές" μέγεθος βήματος και μία με αναζήτηση γραμμής με οπισθοχώρηση. Έπειτα, προχωράμε στον (τύπου Nesterov) επιταχυνόμενο ντετερμινιστικό αλγόριθμο. Στη συνέχεια, παρουσιάζουμε παραλλαγές του αλγόριθμου Stochastic Gradient Descent με μέγεθος βήματος που υπολογίζεται με διάφορες μεθόδους. Για παράδειγμα, (1) αξιοποιώντας την ιδιότητα της ισχυρής κυρτότητας της κανονικοποιημένης ΛΠ, (2) αξιοποιώντας την αναζήτηση γραμμής κατά Armijo, χρησιμοποιώντας μόνο ένα υποσύνολο των δεδομένων που προσδιορίζεται από το μέγεθος παρτίδας, (3) χρησιμοποιώντας μια επί τούτου αναζήτηση γραμμής βασισμένη στη γωνία δύο διαδοχικών στοχαστικών βαθμίδων κ.λπ. Δοκιμάζουμε την απόδοση των διάφορων αλγόριθμων χρησιμοποιώντας συνθετικά δεδομένα (γραμμικά διαχωρίσιμα και γραμμικά μη διαχωρίσιμα). Παρατηρούμε ότι ορισμένες παραλλαγές στοχαστικών αλγόριθμων (ειδικά η παραλλαγή που εκμεταλλεύεται την ισχυρή κυρτότητα της κανονικοποιημένης ΛΠ) αποδίδει αρκετά καλά κατά τις πρώτες εποχές, ενώ οι επιταχυνόμενοι αλγόριθμοι γίνονται πιο ακριβείς μετά τις πρώτες εποχές. Γενικά, οι επιταχυνόμενοι στοχαστικοί αλγόριθμοι είναι γρήγοροι κατά τις πρώτες εποχές αλλά όχι πολύ ακριβείς. Έτσι, πιο εξελιγμένοι επιταχυνόμενοι στοχαστικοί αλγόριθμοι πρέπει να εξεταστούν. | el |
Type of Item | Διπλωματική Εργασία | el |
Type of Item | Diploma Work | en |
License | http://creativecommons.org/licenses/by/4.0/ | en |
Date of Item | 2023-02-15 | - |
Date of Publication | 2023 | - |
Subject | Supervised learning | en |
Subject | Machine learning | en |
Subject | Classification | en |
Subject | Optimization | en |
Bibliographic Citation | Emmanouil Limnaios, "Study of gradient and stochastic gradient algorithms for Logistic Regression", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2023 | en |
Bibliographic Citation | Εμμανουήλ Λημναίος, "Μελέτη αλγορίθμων βαθμίδας και στοχαστικής βαθμίδας για το πρόβλημα της Logistic Regression", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2023 | el |