Default prediction in peer-to-peer lending and country comparison
Koskimäki, Matias (2021)
Pro gradu -tutkielma
Koskimäki, Matias
2021
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2021062139244
https://urn.fi/URN:NBN:fi-fe2021062139244
Tiivistelmä
The purpose of this thesis is to predict default in P2P lending and compare prediction performance and variable importance between countries. This research is done using feature selection (FS) and random under-sampling (RUS) in data preparation. Dataset is also split to each country. These datasets are then trained using machine learning. Selected models are Logistic regression (LR), Support vector machine (SVM), and Random Forest (RF) and parameters are optimized using hyper parameter optimization and models are trained using 10-fold cross validation. This thesis uses credit data from P2P lending site Bondora, an Estonian P2P lending platform. Classification results are evaluated using multiple metrics derived from confusion matrix and area under ROC curve (AUC)
The results show that default can be predicted very accurately with these methods. Prediction performance, according to evaluation metrics, does not get better when dividing dataset to specific countries. Overall models perform best when they are used on whole dataset. This could be due to smaller sample size when data is split to each country. Interestingly, Finnish dataset, when using RF model, managed to predict default class the best out of all other models and datasets. This gives an indication that, with enough data on each country, results could have been different. Supervised machine learning models tend to perform best with very large datasets. Also, countries have similarities in variable importance, but some variables stood out in specific countries. Also, some variables had opposite effects on default probability in different countries. Tämän tutkimuksen tarkoitus on ennustaa luottoriskiä vertaislainauksessa ja tarkastella tärkeitä muuttuja, sekä vertailla tuloksia maakohtaisesti. Tutkimuksessa käytettiin muuttujavalintaa sekä satunnaisotantaa, jotta ennustus mallit toimisivat mahdollisimman hyvin. Data on jaettu myös eri maihin. Data koulutettiin käyttämällä logistista regressiota, tukivektorikonetta ja satunnaista metsää. Parametrit myös optimoitiin hyper-parametrioptimoinnilla ja mallit koulutettiin 10-kertaisella ristiin validoinnilla. Tutkimuksessa käytetään dataa vertaislaina sivustolta nimeltä Bondora, joka on virolainen vertaislainapalvelu. Luokittelutulokset arvioidaan käyttämällä sekaannusmatriisista johdettuja mittareita, sekä AUC (area under ROC curve) -tunnuslukua.
Tulokset näyttävät, että luottoriskiä voidaan ennustaa hyvin tarkasti käyttämällä koneoppimisen malleja. Mallien ennustuskyky ei parane, kun data jaetaan eri maihin. Mallit ennustavat parhaiten kaiken datan avulla. Tämä voi johtua tietoaineiston koosta, sillä koko datassa on paljon enemmän tapauksia verrattuna siihen, että ne olisi jaettu maihin. Mielenkiintoinen havainto löytyy kuitenkin Suomen datasta, sillä maksukyvyttömyyttä pystyttiin ennustamaan parhaiten satunnaisella metsällä verrattuna muihin maihin ja koko dataan. Tämä osittaa, että maakohtaisia eroja löytyy, mutta niiden ennustamiseen pitäisi olla tasavertaiset tietoaineistot. Eri maiden luottoriskiin vaikuttaa pääasiassa samat muuttujat, mutta myös ainutlaatuisia muuttujia löytyy jokaisesta maasta. Jotkin muuttujat vaikuttavat myös päinvastoin luottoriskiin eri maissa.
The results show that default can be predicted very accurately with these methods. Prediction performance, according to evaluation metrics, does not get better when dividing dataset to specific countries. Overall models perform best when they are used on whole dataset. This could be due to smaller sample size when data is split to each country. Interestingly, Finnish dataset, when using RF model, managed to predict default class the best out of all other models and datasets. This gives an indication that, with enough data on each country, results could have been different. Supervised machine learning models tend to perform best with very large datasets. Also, countries have similarities in variable importance, but some variables stood out in specific countries. Also, some variables had opposite effects on default probability in different countries.
Tulokset näyttävät, että luottoriskiä voidaan ennustaa hyvin tarkasti käyttämällä koneoppimisen malleja. Mallien ennustuskyky ei parane, kun data jaetaan eri maihin. Mallit ennustavat parhaiten kaiken datan avulla. Tämä voi johtua tietoaineiston koosta, sillä koko datassa on paljon enemmän tapauksia verrattuna siihen, että ne olisi jaettu maihin. Mielenkiintoinen havainto löytyy kuitenkin Suomen datasta, sillä maksukyvyttömyyttä pystyttiin ennustamaan parhaiten satunnaisella metsällä verrattuna muihin maihin ja koko dataan. Tämä osittaa, että maakohtaisia eroja löytyy, mutta niiden ennustamiseen pitäisi olla tasavertaiset tietoaineistot. Eri maiden luottoriskiin vaikuttaa pääasiassa samat muuttujat, mutta myös ainutlaatuisia muuttujia löytyy jokaisesta maasta. Jotkin muuttujat vaikuttavat myös päinvastoin luottoriskiin eri maissa.