PDF Prindi E-posti aadress

Eesti keel miljard+

Margit Langemets

Jõulukuul jõudis meieni rõõmusõnum: eesti keele iive on positiivne! Jah, lugesite õigesti. Nelja viimase aasta jooksul on eesti keel kasvanud plahvatuslikult: teda on veebimaailmas kaks korda (!) rohkem kui enne. Eesti keele käsi käib hästi, sest teda on äkki saanud väga palju.

Keele elujõud sõltub tänapäeval – meeldib see meile või mitte – tema digitaalsest kestlikkusest. Keel jääb ellu, kui tema funktsioonid, pädevus ja prestiiž säilivad ka internetis, tänapäeval eeskätt mobiilis. Siinsamas veerus on Indrek Hein juba kirjutanud, et eesti keel on üks neist 500 keelest, milles leidub veebilehti (kokku on maailmas keeli üle 6000). Neli aastat tagasi, 2013. aastal, kogusime esimest korda veebist kokku kõik seal ringlevad eestikeelsed tekstid. Koos varem Tartu ülikooli ja Filosofti loodud kogudega saime toona tekstikogu, kus sõnu kokku ligi 500 miljonit. Ja nüüd, alates 2017. aasta lõpust, pärast samalaadse protseduuri läbimist, on meil rohkem kui miljardist sõnast koosnev keelekogu! Hoiatan, see EI tähenda, et eesti keeles ongi miljard sõna, see on lihtsalt kõigi kasutatud sõnade koguarv. Aga 10 miljonit on küll – nii kõneleb meile korpuse statistika, kui lugeda kokku, mitu erinevat märksõna (ehk meie keeli lemmat) seal esineb.

Mitte mingil juhul ei suuda me kõiki sõnu sõnaraamatusse üles kirjutada. Eesti keele omapära on liitsõnade ja tuletiste rohkus – igaüks saab n-ö sõrmenipsuga uusi sõnu teha. Umbes 3/4 kõigist eesti sõnadest on liitsõnad, nii see 10 miljonit kokku tuleb! Sõnaraamatutesse jõuab neist siiski väike osa: meie suurimas, 2018. ilmuvas uues seletavas sõnaraamatus on üle 100 000 sõna ehk üksnes sajandik kõigest võimalikust.

Sõnaraamatute koostajatele ja keeleuurijatele on ülioluline, et elektroonilised tekstikogud oleksid võimalikult suured. Eeskätt seepärast, et saada sabast kinni iseäralikel, harva esinevatel keelenähtustel, mis statistiliselt jäävad keelekasutuse äärealadele, aga võivad muus mõttes olla, ja tavaliselt ongi, ääretult huvitavad. Samuti, et leida kätte uued sõnad. Seda hiiglasuurt keelekogu aitavad analüüsida spetsiaalsed arvutiprogrammid.

Huvitav on teada, et nimisõnu ja verbe on meie tekstides kokku „ainult“ pisut üle poole (vastavalt 34% ja 19%) – kogu ülejäänud töö teevad ära adverbid ja omadussõnad üheskoos armsate „väikeste“ sõnadega (asesõnad, sidesõnad, hüüdsõnad jt).

Väike tõrvatilk on, et see hiiglasuur keelekogu on tugevasti kaldu ajakirjanduskeele poole. Eestis ilmub iga päev keskmiselt 10 raamatut. Kui need ka veel meie iivet tõstaksid, oleks elu päris ilus!