ERME – Erzya and Moksha Extended Corpora, Korp Version

View resource name in all available languages

ERME – Ersän ja mokšan laajennettu korpus, Korp-versio

erme-s-korp

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-201407306

NOTE: this resource is no longer available as it is a subset of a newer version "erme-s-v2-korp" (http://urn.fi/urn:nbn:fi:lb-2023021601).

The resource contains the sentences of the original full texts in the ERME corpus in scrambled order.

ERME contains predominantly Erzya and Moksha literature. It consists of several media publications from the 19th to the 20th century. ERME was mapped in Saransk in 1997-2004, while in Helsinki it has been mapped since 2004. The most basic format used is XML, with a granularity extending to chapter level. The goal is to create corpora with a granularity extending to word level.

For the next version: At sentence level contextual translation will be used (English or Finnish translation), while at word level there will be morphological encoding, corresponding to each context. Preliminary morphological analysis will be carried out using HFST-based transducers, which have been developed in the Giellatekno infrastructure of the University of Tromsø.

The grammatical analysis and labeling comply with the practices developed in the Giellatekno infrastructure of the University of Tromsø. These practices are applied in the documentation of several Uralic languages.

Amount of processed material: more than a million words. The amount of the processed material is to be increased subsequently.

ERME is available at http://korp.csc.fi.

View resource description in all available languages

HUOM: aineisto ei ole enää tarjolla, koska se sisältyy kokonaisuudessaan uudempaan versioon "erme-s-v2-korp" (http://urn.fi/urn:nbn:fi:lb-2023021601).

Aineisto sisältää alkuperäisen ERME-korpuksen kokotekstien virkkeet, joiden järjestys on sekoitettu.

ERME on pääasiassa ersä- ja mokšamordvan kirjallisuusaineisto. Aineisto koostuu useamman median julkaisuista aina 1800-luvulta 2000-luvulle asti. Sitä on kartoitettu sekä Saranskissa vuosina 1997-2004 että Helsingissä vuodesta 2004. Korpusten alkeellisin muoto on XML-formaatti, jonka rakeisuus ulottuu kappaletasolle. Päämääränä on tuottaa korpuksia, joiden rakeisuus ulottuu sanatasolle.

Seuraavaan versioon: Lausetasolla on kontekstuaalinen käännös (englanninnos tai suomennos), ja sanatasolla valitaan morfologinen koodaus, joka vastaa kutakin kontekstia. Alustava morfologinen analyysi tehdään hfst-pohjaisilla transduktoreilla, joita on kehitetty Tromssan yliopiston Giellateknon infrastruktuurilla.

Käytetty kieliopillinen analyysi ja merkinnät noudattavat Tromssan yliopiston Giellateknon infrastruktuurissa kehitettyä käytännettä, jota noudatetaan useamman uralilaiskielen dokumentoinnissa.

Käsiteltyä aineistoa on yli miljoona sanaa. Sitä on tarkoitus myöhemmin kasvattaa.

You don’t have the permission to edit this resource.