Matemaattisen tekstin tunnistaminen Tesseract-ohjelmiston avulla
Takanen, Jyrki (2020)
Takanen, Jyrki
2020
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2020121127707
https://urn.fi/URN:NBN:fi:amk-2020121127707
Tiivistelmä
Opinnäytetyössä käsiteltiin tekstintunnistusta erityisesti matemaattisten lausekkeiden
tunnistuksen näkökulmasta. Työn tavoitteena oli tutkia mikä tekee matemaattisten
kaavojen tekstintunnistusongelmasta vaikean ja minkälaisia järjestelmiä
tekstintunnistusohjelmistot ovat.
Tavoitteena oli toteuttaa prototyyppi, joka tunnistaa painettuja matemaattisia kaavoja ja
tulostaa tunnistetun kaavan LaTeX-merkintäkielelle. Prototyypissä käytettiin 'black box' -lähestymistavalla Tesseract-tekstintunnistusohjelmistoa merkkien tunnistamiseen.
Prototyypin avulla haluttiin havainnollistaa matemaattisten kaavojen tunnistamiseen
liittyviä ongelmia sekä motivoida mahdollisien ratkaisuiden löytämistä ja testata ideoiden
toimivuutta.
Teoreettisessa viitekehyksessä tutkittiin tekstintunnistuksen vaiheita ja matemaattisen
tekstin tunnistukseen liittyviä erityispiirteitä. Viimeaikaisia tekoälypohjaisia menetelmiä
tarkasteltiin ja näitä verrattiin perinteisiin menetelmiin.
Toteutuksessa käytiin vaiheittain läpi perinteisen tekstintunnistusjärjestelmän
arkkitehtuurin eri osa-alueet painottuen matemaattisten kaavojen tunnistukseen.
Yksinkertaisia kaavoja onnistuttiin tunnistamaan.
Lopputuloksena prototyyppi onnistui siinä mihin se oli tehty, eli oppimisprojektina
tekstintunnistusjärjestelmiin perehtymisessä. Työssä löydettiin osittainen vastaus
esitettyyn kysymykseen ja pohdittiin mahdollisia tulevaisuuden näkymiä. Opinnäytetyön
kirjallisessa osuudessa koostettua tietoa ja lähteitä voidaan käyttää lähtökohtana aiheen
opiskelulle.
tunnistuksen näkökulmasta. Työn tavoitteena oli tutkia mikä tekee matemaattisten
kaavojen tekstintunnistusongelmasta vaikean ja minkälaisia järjestelmiä
tekstintunnistusohjelmistot ovat.
Tavoitteena oli toteuttaa prototyyppi, joka tunnistaa painettuja matemaattisia kaavoja ja
tulostaa tunnistetun kaavan LaTeX-merkintäkielelle. Prototyypissä käytettiin 'black box' -lähestymistavalla Tesseract-tekstintunnistusohjelmistoa merkkien tunnistamiseen.
Prototyypin avulla haluttiin havainnollistaa matemaattisten kaavojen tunnistamiseen
liittyviä ongelmia sekä motivoida mahdollisien ratkaisuiden löytämistä ja testata ideoiden
toimivuutta.
Teoreettisessa viitekehyksessä tutkittiin tekstintunnistuksen vaiheita ja matemaattisen
tekstin tunnistukseen liittyviä erityispiirteitä. Viimeaikaisia tekoälypohjaisia menetelmiä
tarkasteltiin ja näitä verrattiin perinteisiin menetelmiin.
Toteutuksessa käytiin vaiheittain läpi perinteisen tekstintunnistusjärjestelmän
arkkitehtuurin eri osa-alueet painottuen matemaattisten kaavojen tunnistukseen.
Yksinkertaisia kaavoja onnistuttiin tunnistamaan.
Lopputuloksena prototyyppi onnistui siinä mihin se oli tehty, eli oppimisprojektina
tekstintunnistusjärjestelmiin perehtymisessä. Työssä löydettiin osittainen vastaus
esitettyyn kysymykseen ja pohdittiin mahdollisia tulevaisuuden näkymiä. Opinnäytetyön
kirjallisessa osuudessa koostettua tietoa ja lähteitä voidaan käyttää lähtökohtana aiheen
opiskelulle.