Supervised feature selection methods for default prediction in P2P lending
Hautakangas, Juhana (2020)
Pro gradu -tutkielma
Hautakangas, Juhana
2020
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2020062345375
https://urn.fi/URN:NBN:fi-fe2020062345375
Tiivistelmä
The purpose of this thesis is to investigate the performance of different feature selection (FS) methods in P2P lending default prediction. The tested FS methods include maximum-relevance-minimum-redundancy (MRMR) approach, Chi-Square FS method, sequential forward selection (SFS) method and learning model-based feature ranking (LMBRF) method. The FS methods are examined in combination with Naïve Bayes (NB), logistic regression (LR), decision tree (DT) and random forest (RF) classifiers. A systematic comparison of the used models is conducted using historical P2P loan data provided by Bondora, an Estonian P2P lending platform.
The performance of FS methods is evaluated based on the final classification performance and model complexity. Classification performance is measured using both the performance metrics calculated based on the confusion matrices and the area under the ROC curve (AUC) metric. The model complexity is measured by the number of used features in the final classification models.
The study results indicate that all the tested FS methods are suitable for FS in P2P lending default prediction context. Using each of the FS methods, at least competitive classification performance was obtained compared to the models without FS, with considerably smaller number of features. Overall, the SFS method was found to be the most efficient of tested FS models. It was the only method that managed to improve the classification accuracy statistically significantly with almost all the tested classification models and it also helped to reduce the number of features most considerably. Other investigated FS methods were found to perform somewhat equally compared to each other. Tämän tutkielman tavoitteena on tutkia erilaisten muuttujanvalintamallien suoriutumista vertaislainojen luottoriskin ennustuksessa. Tutkittavina muuttujanvalintamenetelminä käytetään MRMR (maximum-relevance-minimum-redundancy) -menetelmää, khiin neliö -testiin perustuvaa menetelmää, eteenpäin askeltavaa muuttujanvalintamallia sekä luokittelumalleihin pohjautuvaa muuttujien järjestämistä. Valintamalleja arvioidaan käyttämällä niitä yhdessä koneoppimiseen perustuvien luokittelumallien kanssa. Luokittelumalleina käytetään naiivia Bayes -luokittelijaa, logistista regressiota, päätöspuita ja satunnaisia metsiä. Tutkimusaineistona hyödynnetään virolaisen vertaislaina-alustan Bondoran historiallista lainadataa.
Muuttujanvalintamallien suoriutumista arvioidaan ennustusmallien lopullisen luokittelutehokkuuden sekä mallien monimutkaisuuden perusteella. Luokittelutehokkuutta mitataan käyttämällä erilaisia sekaannusmatriisiin perustuvia tunnuslukuja sekä AUC (area under the ROC curve) -tunnuslukua. Mallien monimutkaisuutta arvioidaan lopullisissa luokittelumalleissa käytettyjen muuttujien lukumäärän perusteella.
Tutkimustulokset osoittavat, että kaikki testatut muuttujanvalintamallit soveltuvat käytettäväksi vertaislainojen luottoriskin ennustuksessa. Tulosten mukaan kaikkien muuttujanvalintamallien hyödyntäminen johti vähintään kilpailukykyiseen luokittelutehokkuuteen verrattuna malleihin ilman muuttujanvalintaa, selkeästi pienemmällä muuttujamäärällä. Tutkituista malleista tehokkain oli eteenpäin askeltava muuttujanvalintamalli, joka tutkituista malleista ainoana paransi luokittelutehokkuutta tilastollisesti merkitsevästi lähes kaikkien luokittelumallien kohdalla. Kyseisen muuttujanvalintamallin avulla myös muuttujamäärää onnistuttiin vähentämään merkittävimmin. Muut muuttujanvalintamallit olivat tehokkuudeltaan keskenään jokseenkin tasavertaisia.
The performance of FS methods is evaluated based on the final classification performance and model complexity. Classification performance is measured using both the performance metrics calculated based on the confusion matrices and the area under the ROC curve (AUC) metric. The model complexity is measured by the number of used features in the final classification models.
The study results indicate that all the tested FS methods are suitable for FS in P2P lending default prediction context. Using each of the FS methods, at least competitive classification performance was obtained compared to the models without FS, with considerably smaller number of features. Overall, the SFS method was found to be the most efficient of tested FS models. It was the only method that managed to improve the classification accuracy statistically significantly with almost all the tested classification models and it also helped to reduce the number of features most considerably. Other investigated FS methods were found to perform somewhat equally compared to each other.
Muuttujanvalintamallien suoriutumista arvioidaan ennustusmallien lopullisen luokittelutehokkuuden sekä mallien monimutkaisuuden perusteella. Luokittelutehokkuutta mitataan käyttämällä erilaisia sekaannusmatriisiin perustuvia tunnuslukuja sekä AUC (area under the ROC curve) -tunnuslukua. Mallien monimutkaisuutta arvioidaan lopullisissa luokittelumalleissa käytettyjen muuttujien lukumäärän perusteella.
Tutkimustulokset osoittavat, että kaikki testatut muuttujanvalintamallit soveltuvat käytettäväksi vertaislainojen luottoriskin ennustuksessa. Tulosten mukaan kaikkien muuttujanvalintamallien hyödyntäminen johti vähintään kilpailukykyiseen luokittelutehokkuuteen verrattuna malleihin ilman muuttujanvalintaa, selkeästi pienemmällä muuttujamäärällä. Tutkituista malleista tehokkain oli eteenpäin askeltava muuttujanvalintamalli, joka tutkituista malleista ainoana paransi luokittelutehokkuutta tilastollisesti merkitsevästi lähes kaikkien luokittelumallien kohdalla. Kyseisen muuttujanvalintamallin avulla myös muuttujamäärää onnistuttiin vähentämään merkittävimmin. Muut muuttujanvalintamallit olivat tehokkuudeltaan keskenään jokseenkin tasavertaisia.