XTerm-korpuskyselykielen kehittäminen ja korpuskyselykielten vertailu
TUOMISTO, HANNA (2012)
TUOMISTO, HANNA
2012
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2012-06-13
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-22714
https://urn.fi/urn:nbn:fi:uta-1-22714
Tiivistelmä
Tässä työssä esitellään Tampereen yliopistossa monialaisena projektina toteutettu erityisesti termien louhintaan tarkoitettu korpuskyselykieli ja verrataan sitä muihin korpuskyselykieliin. Suurin osa korpuskyselykielistä on kehitetty yliopistoissa, eikä kaupallisia korpustyökaluja juurikaan ole saatavilla. Vertailtavat korpuskyselyjärjestelmät ja -kielet ovat: tekstihakujärjestelmä Emdros ja sen kyselykieli MQL, työkalusarja NITE XML Toolkit ja sen sisältämä kyselykieli NXT Query Language, IMS Corpus Workbench ja sen kyselykieli Corpus Query Processor Language sekä BNCweb-käyttöliittymän Simple Query Syntax-kyselykieli, joka sekin pohjautuu IMS Corpus Workbenchin Corpus Query Processoriin.
Korpuskyselykielten vertailu on tehty esittämällä kymmenen erilaista kyselyesimerkkiä ja tämän jälkeen esitetty jokainen näistä kullakin kyselykielellä. Esimerkkikyselyjen on tarkoitus kuvata niitä erilaisia tilanteita, joita kielentutkijalla saattaa olla ja joihin korpuskyselykielen tulisi vastata. Esimerkkikyselyissä kuvataan mallin sovittamista, säännöllisten lausekkeiden hyödyntämistä, termien louhintaa, tilastotietojen johtamista korpuskyselykielen avulla, kyselyn tulostusmuodon määrittelyä sekä tekstin rakenteen ja elementtien etäisyyksien määrittelyä ja rajaamista hauissa. Vertaillut korpuskyselykielet eroavat toisistaan huomattavasti. Kullakin korpuskyselykielellä on selvästi omat vahvuutensa ja heikkoutensa.
Tämän työn yhteydessä toteutetun XTerm-kyselykielen vahvuus on sen yksinkertaisuus ja soveltuvuus erityisesti helppoon ja nopeaan termien louhintaan. MQL-kyselykielen vahvuus on haettavien elementtien sisäkkäisyyden ja peräkkäisyyden kuvaamisessa. NXT-kyselykieli on ehkä vertailluista kyselykielistä monipuolisin ja mahdollistaa hyvin monenlaiset haut, mutta vaatii käyttäjältä tietojenkäsittelyyn liittyvien periaatteiden ymmärtämistä ja opiskelua. Corpus Query Processor-kyselykieli on sekin monipuolinen ja selvästi kielitieteellisiin tarkoituksiin soveltuva. Simple Query Syntaxin vahvuus on sen yksinkertaisuus. Se on helppokäyttöinen ja nopeasti opittava ja se mahdollistaa kuitenkin monet yleiset kielentutkijan hakutilanteet. On mahdotonta yksiselitteisesti valita parasta ja helppokäyttöisintä korpuskyselykieltä. Yleistäen voidaankin todeta, että mitä monipuolisempi korpuskyselykieli on ominaisuuksiltaan, sitä enemmän se vaatii käyttäjältään opiskelua tai jo ennalta tietojenkäsittelyyn liittyvien paradigmojen ymmärtämisen.
Asiasanat:korpus, korpuskyselykieli, kielitiede, XML, XPath, XQuery
Korpuskyselykielten vertailu on tehty esittämällä kymmenen erilaista kyselyesimerkkiä ja tämän jälkeen esitetty jokainen näistä kullakin kyselykielellä. Esimerkkikyselyjen on tarkoitus kuvata niitä erilaisia tilanteita, joita kielentutkijalla saattaa olla ja joihin korpuskyselykielen tulisi vastata. Esimerkkikyselyissä kuvataan mallin sovittamista, säännöllisten lausekkeiden hyödyntämistä, termien louhintaa, tilastotietojen johtamista korpuskyselykielen avulla, kyselyn tulostusmuodon määrittelyä sekä tekstin rakenteen ja elementtien etäisyyksien määrittelyä ja rajaamista hauissa. Vertaillut korpuskyselykielet eroavat toisistaan huomattavasti. Kullakin korpuskyselykielellä on selvästi omat vahvuutensa ja heikkoutensa.
Tämän työn yhteydessä toteutetun XTerm-kyselykielen vahvuus on sen yksinkertaisuus ja soveltuvuus erityisesti helppoon ja nopeaan termien louhintaan. MQL-kyselykielen vahvuus on haettavien elementtien sisäkkäisyyden ja peräkkäisyyden kuvaamisessa. NXT-kyselykieli on ehkä vertailluista kyselykielistä monipuolisin ja mahdollistaa hyvin monenlaiset haut, mutta vaatii käyttäjältä tietojenkäsittelyyn liittyvien periaatteiden ymmärtämistä ja opiskelua. Corpus Query Processor-kyselykieli on sekin monipuolinen ja selvästi kielitieteellisiin tarkoituksiin soveltuva. Simple Query Syntaxin vahvuus on sen yksinkertaisuus. Se on helppokäyttöinen ja nopeasti opittava ja se mahdollistaa kuitenkin monet yleiset kielentutkijan hakutilanteet. On mahdotonta yksiselitteisesti valita parasta ja helppokäyttöisintä korpuskyselykieltä. Yleistäen voidaankin todeta, että mitä monipuolisempi korpuskyselykieli on ominaisuuksiltaan, sitä enemmän se vaatii käyttäjältään opiskelua tai jo ennalta tietojenkäsittelyyn liittyvien paradigmojen ymmärtämisen.
Asiasanat:korpus, korpuskyselykieli, kielitiede, XML, XPath, XQuery