Deep reinforcement learning in portfolio management : policy gradient method for S&P-500 stock selection
Huotari, Tommi (2019)
Pro gradu -tutkielma
Huotari, Tommi
2019
School of Business and Management, Kauppatieteet
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2019081924643
https://urn.fi/URN:NBN:fi-fe2019081924643
Tiivistelmä
Tämän maisterintutkielman tavoitteena on tutkia syvän vahvistusoppimisen (deep reinforcement learning, DRL) soveltuvuutta salkunhoitoon S&P500-indeksin osakkeista koostuvan osakeportfolion riskikorjatun tuoton parantamiseksi. Tarkoituksena on luoda DRL-agentti, joka pystyy rakentamaan ja hallitsemaan itsenäisesti osakesalkkua analysoimalla julkisten yhtiöiden päivittäistä tuottoa, Earnings to price-tunnuslukua, osinkotuottoa sekä kaupankäyntimääriä.
Tutkimuksen datana käytettiin vuoden 2013 tammikuun S&P500-indeksin osakkeita vuosilta 1998-2018, joista oli jätetty pois vuoden 2004 jälkeen listautuneet yhtiöt (84). Käymällä kauppaa jäljellä olevilla 416 osakkeella, tutkimuksessa kehitetty agentti pystyi kasvattamaan salkun riskikorjattua tuottoa yli indeksin sekä kaikkien vertailuportfolioiden, saavuttaen 329% tuoton 5 vuoden testijakson aikana. Osakkeiden kaupankäyntimäärät todettiin tutkimuksessa agentin suorituskyvyn kannalta hyödyttömäksi lähtötiedoksi. Agentin osoitettiin parantavan merkittävästi osakeportfolion riskikorjattua sekä kokonaistuottoa, mutta sen kaupankäyntistrategian todettiin olevan ennemmin opportunistinen, kuin jatkuvaan ylituottoon kykenevä.
Saavutetuista ylituotoista huolimatta, agentin ei kuitenkaan osoitettu ylittävän tilastollisesti merkitsevästi markkinatuottoa. Tulokset tukevat aiempia havaintoja syvän vahvistusoppimisen sovellettavuudesta salkunhoidossa. The goal of this Master’s Thesis is to investigate the applicability of deep reinforcement learning (DRL) to portfolio management in order to improve the risk-adjusted returns of a stock portfolio with S&P500 constituents. The objective is to create a deep reinforcement learning agent, able to independently construct and manage a portfolio of stocks by analysing the daily total return, Earnings to price, Dividend yield and trading volume of public companies.
The dataset in the study contained the S&P500 constituents at January 2013 covering the years from 1998 to 2018. The companies listed after 2004 (84) were left out from the final dataset. By trading the remaining 416 stocks, the agent developed in the study was able to increase the risk-adjusted returns of the portfolio over the stock index and all the benchmarks, achieving 329% returns during the 5-year test period. Trading volume was found to be an ineffective variable for the model in portfolio management. The agent was demonstrated to significantly improve the risk-adjusted and the total returns of the stock portfolio, however, its trading behaviour was found opportunistic, rather than continuously beating the market index.
Despite from the excess returns, the agent was not shown to statistically significantly out-perform the market performance. The results support the previous findings about the applicability of DRL to the portfolio management.
Tutkimuksen datana käytettiin vuoden 2013 tammikuun S&P500-indeksin osakkeita vuosilta 1998-2018, joista oli jätetty pois vuoden 2004 jälkeen listautuneet yhtiöt (84). Käymällä kauppaa jäljellä olevilla 416 osakkeella, tutkimuksessa kehitetty agentti pystyi kasvattamaan salkun riskikorjattua tuottoa yli indeksin sekä kaikkien vertailuportfolioiden, saavuttaen 329% tuoton 5 vuoden testijakson aikana. Osakkeiden kaupankäyntimäärät todettiin tutkimuksessa agentin suorituskyvyn kannalta hyödyttömäksi lähtötiedoksi. Agentin osoitettiin parantavan merkittävästi osakeportfolion riskikorjattua sekä kokonaistuottoa, mutta sen kaupankäyntistrategian todettiin olevan ennemmin opportunistinen, kuin jatkuvaan ylituottoon kykenevä.
Saavutetuista ylituotoista huolimatta, agentin ei kuitenkaan osoitettu ylittävän tilastollisesti merkitsevästi markkinatuottoa. Tulokset tukevat aiempia havaintoja syvän vahvistusoppimisen sovellettavuudesta salkunhoidossa.
The dataset in the study contained the S&P500 constituents at January 2013 covering the years from 1998 to 2018. The companies listed after 2004 (84) were left out from the final dataset. By trading the remaining 416 stocks, the agent developed in the study was able to increase the risk-adjusted returns of the portfolio over the stock index and all the benchmarks, achieving 329% returns during the 5-year test period. Trading volume was found to be an ineffective variable for the model in portfolio management. The agent was demonstrated to significantly improve the risk-adjusted and the total returns of the stock portfolio, however, its trading behaviour was found opportunistic, rather than continuously beating the market index.
Despite from the excess returns, the agent was not shown to statistically significantly out-perform the market performance. The results support the previous findings about the applicability of DRL to the portfolio management.