Aktiivisen oppimisen nopeuttaminen datan visualisoinnilla
Holmberg, Tuomas (2020-04-17)
Holmberg, Tuomas
T. Holmberg
17.04.2020
© 2020 Tuomas Holmberg. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202004181470
https://urn.fi/URN:NBN:fi:oulu-202004181470
Tiivistelmä
Massadatan käytön lisääntyminen, tietokoneiden laskentatehon kasvaminen ja koneoppimismenetelmien kehittyminen ovat johtaneet koneoppimissovellusten yleistymiseen. Nykyään koneoppimista käytetään monissa eri datan analysoimista ja ennustamista vaativissa tehtävissä esimerkiksi puheentunnistuksessa, luonnollisen kielen käsittelyssä, lääketieteellisessä kuvantamisessa, hakukoneissa ja konenäössä. Datasta oppimisen kannalta tärkeimpiä koneoppimisen osa-alueita ovat ohjattu, ohjaamaton ja puoliohjattu oppiminen.
Opetettavat koneoppimisen mallit vaativat yleensä valtavan määrän opetusdataa, jotta päästäisiin hyviin tuloksiin. Ohjatussa oppimisessa datan hankkimisen lisäksi jokainen yksittäinen datanäyte tarvitsee luokkatiedon, jonka ihminen joutuu antamaan käsin. Tämä työläs ja aikaavievä kategorisointiprosessi johtaa usein virheisiin, sillä ihmisen on vaikea pysyä johdonmukaisena rajatapausnäytteiden kanssa.
Aktiivisessa oppimisessa ihminen osallistuu oppimisprosessiin kategorisoimalla ainoastaan informatiivisimmat datanäytteet. Tässä datan visualisointi voi tukea opetuspäätöksissä ja parantaa tuloksia pienemmällä opetusdatan määrällä.
Datan visualisoimista varten kehitettiin Python-ohjelmistotyökalu, joka tuottaa kaksiulotteisia esityksiä. Tämä tuo luokitteluongelman ihmiselle helpommin ymmärrettäväksi samalla pienentäen erityisesti virheellisesti kategorisoitujen näytteiden lukumäärää.
Visualisoinneilla nopeutettiin mallin opettamista merkittävästi. MNIST-datalla opetetulla satunnaismetsäluokittelijalla päästiin 80 % luokittelutarkkuuteen 156 opetusnäytteellä ilman visualisointeja ja sama luokittelutarkkuus saavutettiin 134 opetusnäytteellä visualisointeja käyttämällä. Tosielämän epäbalansoidun oksadatan satunnaismetsäluokittelu 60 % Cohenin kappakertoimella vaati 127 näytettä ilman visualisointeja ja 63 näytettä visualisointien kanssa. Tutkimuksen yhteydessä kerätty madonmunanäytteistö luokittui satunnaismetsällä 90 % Cohenin kappakertoimella 95 opetusnäytteellä ilman visualisointeja, mutta visualisointityökalun avulla riitti 65 näytettä.
Tämä työ paljasti datan visualisoinnista saatavan edun erityisesti silloin, kun parhaat esitystavat eivät ole tunnettuja käytettävälle datajoukolle. The increased use of big data, improved computational power of computers, and the development of machine learning techniques have led to the wider employment of machine learning based applications. For the time being machine learning is used for various data analysis and prediction tasks, for example, speech recognition, natural language processing, image analysis, and search engines. The machine learning approaches include supervised, unsupervised and semi-supervised schemes, each with different level of human effort.
Machine learning may require an enormous amount of data to achieve good results. In supervised learning, in addition to data acquisition, each data sample needs to be labeled, which has to be done manually by humans. This laborious and time-consuming annotation operation often leads to errors since for humans it is hard to stay logical while labeling borderline samples.
In active learning, humans participate in the learning process by labeling only the most informative data samples. Here data visualization can support in decisions improving results with less training data.
In the context of this thesis, an approach and a software tool for visualizing high dimensional data were developed. The solution brings the structure of data easier to understand, and improves the accuracy of labeling.
The approach was shown to speed up the training process of random forest classification in three comparable experiments. With MNIST hand written numerals data 80% accuracy was reached with 156 training samples without visualizations, while 134 training samples sufficed with the support of the developed tool. For an unbalanced wood material data set Cohen’s kappa coefficient of 60% was reached with 127 training samples without visualizations, while only 63 were needed with visualizations. For worm egg data gathered during the research reaching Cohen kappa of 90% required only 65 samples using the visualization approach, but otherwise 95.
This work demonstrated the advantages of data visualization especially when the best representations for data are not known and are still explored.
Opetettavat koneoppimisen mallit vaativat yleensä valtavan määrän opetusdataa, jotta päästäisiin hyviin tuloksiin. Ohjatussa oppimisessa datan hankkimisen lisäksi jokainen yksittäinen datanäyte tarvitsee luokkatiedon, jonka ihminen joutuu antamaan käsin. Tämä työläs ja aikaavievä kategorisointiprosessi johtaa usein virheisiin, sillä ihmisen on vaikea pysyä johdonmukaisena rajatapausnäytteiden kanssa.
Aktiivisessa oppimisessa ihminen osallistuu oppimisprosessiin kategorisoimalla ainoastaan informatiivisimmat datanäytteet. Tässä datan visualisointi voi tukea opetuspäätöksissä ja parantaa tuloksia pienemmällä opetusdatan määrällä.
Datan visualisoimista varten kehitettiin Python-ohjelmistotyökalu, joka tuottaa kaksiulotteisia esityksiä. Tämä tuo luokitteluongelman ihmiselle helpommin ymmärrettäväksi samalla pienentäen erityisesti virheellisesti kategorisoitujen näytteiden lukumäärää.
Visualisoinneilla nopeutettiin mallin opettamista merkittävästi. MNIST-datalla opetetulla satunnaismetsäluokittelijalla päästiin 80 % luokittelutarkkuuteen 156 opetusnäytteellä ilman visualisointeja ja sama luokittelutarkkuus saavutettiin 134 opetusnäytteellä visualisointeja käyttämällä. Tosielämän epäbalansoidun oksadatan satunnaismetsäluokittelu 60 % Cohenin kappakertoimella vaati 127 näytettä ilman visualisointeja ja 63 näytettä visualisointien kanssa. Tutkimuksen yhteydessä kerätty madonmunanäytteistö luokittui satunnaismetsällä 90 % Cohenin kappakertoimella 95 opetusnäytteellä ilman visualisointeja, mutta visualisointityökalun avulla riitti 65 näytettä.
Tämä työ paljasti datan visualisoinnista saatavan edun erityisesti silloin, kun parhaat esitystavat eivät ole tunnettuja käytettävälle datajoukolle.
Machine learning may require an enormous amount of data to achieve good results. In supervised learning, in addition to data acquisition, each data sample needs to be labeled, which has to be done manually by humans. This laborious and time-consuming annotation operation often leads to errors since for humans it is hard to stay logical while labeling borderline samples.
In active learning, humans participate in the learning process by labeling only the most informative data samples. Here data visualization can support in decisions improving results with less training data.
In the context of this thesis, an approach and a software tool for visualizing high dimensional data were developed. The solution brings the structure of data easier to understand, and improves the accuracy of labeling.
The approach was shown to speed up the training process of random forest classification in three comparable experiments. With MNIST hand written numerals data 80% accuracy was reached with 156 training samples without visualizations, while 134 training samples sufficed with the support of the developed tool. For an unbalanced wood material data set Cohen’s kappa coefficient of 60% was reached with 127 training samples without visualizations, while only 63 were needed with visualizations. For worm egg data gathered during the research reaching Cohen kappa of 90% required only 65 samples using the visualization approach, but otherwise 95.
This work demonstrated the advantages of data visualization especially when the best representations for data are not known and are still explored.
Kokoelmat
- Avoin saatavuus [31941]