From data mining to sentiment analysis : Classifying documents through existing opinion mining methods
Jukarainen, Ville (2012)
Jukarainen, Ville
Mikkelin ammattikorkeakoulu
2012
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-201205148114
https://urn.fi/URN:NBN:fi:amk-201205148114
Tiivistelmä
Tässä opinnäytetyössä ehdotetaan ratkaisua dokumenttitason yleisen mielipiteidenlouhinnan ongel-maan, jolla etsitään mielipiteitä esimerkiksi tuotearvioista, uutisartikkeleista ja blogikirjoituksista. Tämä ratkaisu perustuu olemassa oleviin metodeihin sekä itseorganisoituvan kartan avulla tehtävään luokitteluun. Tarkoituksena on luoda järjestelmä, joka voi luokitella englanninkielisiä dokumentteja mielipideluokkiin, kuten positiivisiin, neutraaleihin ja negatiivisiin. Lisäksi ratkaisulle ehdotetaan toteutusta, jolla se voidaan sulauttaa Cluetail Oy:n olemassa oleviin järjestelmiinsä käyttäen Python-ohjelmointikieltä.
Työ alkoi tutustumalla koneoppimiseen, tiedonlouhintaan ja luonnollisenkielen prosessointiin, joihin mielipiteen analysointi pohjautuu. Tässä opinnäytetyössä etsitään mielipiteitä osittain ohjattujen sekä ohjaamattomien tekniikoita avulla. Sanastoihin perustuvaa positiivisten ja negatiivisten termien lu-kumäärää sekä lauseenjäsensääntöjen, ja ohjaamattoman statistisen mielipideorientaatiomenetelmän avulla poimittuja sanapareja käytetään luomaan mielipidevektori, joka kuvastaa annetun tekstidoku-mentin yleisesti vallitsevaa mielipidesuuntausta. Järjestelmä testattiin kahdella tuotearvosteluaineis-tolla. Mielipideorientaatiota (positiivinen - negatiivinen) sekä useampaa mielipideluokkaa (erittäin positiivinen, positiivinen, neutraali, negatiivinen, erittäin negatiivinen) etsittiin näistä aineistoista, ja suoritettujen testien tulokset esitellään. Lopuksi opinnäytetyössä käydään läpi opinnäytetyön aikana nousseita ongelmia, parannusehdotuksia sekä mahdollisuuksia laajentaa järjestelmä toisiin kieliin.
Kaiken kaikkiaan tämä opinnäytetyö on askel kohti toimivaa mielipiteiden louhintajärjestelmää sekä kapea johdanto mielipiteiden analysointiin aiheesta kiinnostuneille.
Työ alkoi tutustumalla koneoppimiseen, tiedonlouhintaan ja luonnollisenkielen prosessointiin, joihin mielipiteen analysointi pohjautuu. Tässä opinnäytetyössä etsitään mielipiteitä osittain ohjattujen sekä ohjaamattomien tekniikoita avulla. Sanastoihin perustuvaa positiivisten ja negatiivisten termien lu-kumäärää sekä lauseenjäsensääntöjen, ja ohjaamattoman statistisen mielipideorientaatiomenetelmän avulla poimittuja sanapareja käytetään luomaan mielipidevektori, joka kuvastaa annetun tekstidoku-mentin yleisesti vallitsevaa mielipidesuuntausta. Järjestelmä testattiin kahdella tuotearvosteluaineis-tolla. Mielipideorientaatiota (positiivinen - negatiivinen) sekä useampaa mielipideluokkaa (erittäin positiivinen, positiivinen, neutraali, negatiivinen, erittäin negatiivinen) etsittiin näistä aineistoista, ja suoritettujen testien tulokset esitellään. Lopuksi opinnäytetyössä käydään läpi opinnäytetyön aikana nousseita ongelmia, parannusehdotuksia sekä mahdollisuuksia laajentaa järjestelmä toisiin kieliin.
Kaiken kaikkiaan tämä opinnäytetyö on askel kohti toimivaa mielipiteiden louhintajärjestelmää sekä kapea johdanto mielipiteiden analysointiin aiheesta kiinnostuneille.