Predicting the FTSE All-Share index daily close-to-close price direction using sentiment analysis on tweets from UK
Tikkanen, Marko (2021)
Pro gradu -tutkielma
Tikkanen, Marko
2021
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2021112456859
https://urn.fi/URN:NBN:fi-fe2021112456859
Tiivistelmä
The aim of this thesis is to predict the FTSE All-Share index close-to-close price direction using sentiment analysis on tweets from UK. Global and UK tweet datasets are fetched using Twitter Academic Research Application Programming Interface. In total 16.4 million tweets are fetched. For sentiment analysis the selected method is emotion recognition using Ekman’s six basic emotions scheme. Granger-causality analysis is used to select emotion-lag combinations that are useful in predicting the close-to-close price direction. With significance level of 1% these emotions are “Sadness” from the global dataset and “Fear” from the UK dataset.
For price direction classifier Support Vector Machine is used. Results are validated using development-test set splitting, cross-validation on a rolling basis and hyperparameter optimization with grid search. The models are evaluated using accuracy, precision, recall and confusion matrix. Three SVM models are created, one using only the past prices, one using the past prices and emotion data from global tweets, and one using the past prices and emotion data from UK tweets. The findings are that using emotion data from global tweets increase the performance of the model while using emotion data from UK tweets does not increase the performance. Tämän Pro Gradu -tutkielman tavoitteena on ennustaa FTSE All-Share indeksin päivittäisen loppukurssin muutoksen suuntaa käyttämällä tunnetila-analyysiä Iso-Britanniasta lähetetyistä tweeteistä. Twitterin akateemisen tutkimuksen ohjelmointirajapinnasta haetaan kaksi joukko tweettejä, yksi maailmanlaajuinen sekä toinen vain Iso-Britanniasta. Yhteensä tweettejä haetaan 16.4 miljoonaa kappaletta. Tunnetila-analyysissä käytetään tunteiden tunnistusmenetelmää, jolla tweetit luokitellaan Ekmanin kuuteen perustunteeseen. Granger-kausaalisuusanalyysillä valitaan tunne-viive-yhdistelmät, jotka voivat olla hyödyllisiä loppukurssin muutoksen suunnan ennustamisessa. Yhden prosentin merkitsevyystasolla valitaan tunne ”Surullisuus” maailmanlaajuisesta tietojoukosta sekä ”Pelko” Iso-Britannian tietojoukosta.
Loppukurssin muutoksen suunnan ennustamiseen käytetään tukivektorikonetta. Tulokset vahvistetaan käyttämällä kehitys-testaus-jaottelua, jatkuvaa ristivalidointia ja hyperparametrien optimointia ruudukkohaulla. Tulokset arvioidaan käyttämällä mittana ulkoista tarkkuutta, sisäistä tarkkuutta, herkkyyttä sekä confusion matriisia. Kolme tukivektorikonemallia rakennetaan niin, että yksi malleista käyttää lähtöarvoina vain edellisiä loppukurssin muutoksia, toinen malli käyttää tämän lisäksi maailmanlaajuista tunnetilatietoa, ja kolmas malli käyttää loppukurssin muutoksen lisäksi Iso-Britannian tunnetilatietoa. Tutkimuksessa havaitaan, että maailmanlaajuisen tunnetilatiedon käyttäminen parantaa ennustuksia, kun taas Iso-Britannian tunnetilatiedon käyttö ei paranna ennustuksia.
For price direction classifier Support Vector Machine is used. Results are validated using development-test set splitting, cross-validation on a rolling basis and hyperparameter optimization with grid search. The models are evaluated using accuracy, precision, recall and confusion matrix. Three SVM models are created, one using only the past prices, one using the past prices and emotion data from global tweets, and one using the past prices and emotion data from UK tweets. The findings are that using emotion data from global tweets increase the performance of the model while using emotion data from UK tweets does not increase the performance.
Loppukurssin muutoksen suunnan ennustamiseen käytetään tukivektorikonetta. Tulokset vahvistetaan käyttämällä kehitys-testaus-jaottelua, jatkuvaa ristivalidointia ja hyperparametrien optimointia ruudukkohaulla. Tulokset arvioidaan käyttämällä mittana ulkoista tarkkuutta, sisäistä tarkkuutta, herkkyyttä sekä confusion matriisia. Kolme tukivektorikonemallia rakennetaan niin, että yksi malleista käyttää lähtöarvoina vain edellisiä loppukurssin muutoksia, toinen malli käyttää tämän lisäksi maailmanlaajuista tunnetilatietoa, ja kolmas malli käyttää loppukurssin muutoksen lisäksi Iso-Britannian tunnetilatietoa. Tutkimuksessa havaitaan, että maailmanlaajuisen tunnetilatiedon käyttäminen parantaa ennustuksia, kun taas Iso-Britannian tunnetilatiedon käyttö ei paranna ennustuksia.