Navigation path

Left navigation

Additional tools

IP/08/60

Brüssel, 18. jaanuar 2008

Euroopa Komisjon muudab arvutipõhise tõlke kergemaks ja kättesaadavamaks

Euroopa Komisjon astub järjekordse sammu mitmekeelsuse edendamisel, mis on oluline osa Euroopa ühtsusest ja mitmekesisusest. Komisjoni tekstikogu, mis sisaldab ligikaudu miljon lauset, ja nende heatasemeline tõlge 22 keelde Euroopa Liidu 23 ametlikust keelest, sealhulgas uute liikmesriikide keeltesse – see on kõigi aegade suurim tekstikogu nii paljudes keeltes, ning nüüd on see vabalt kättesaadav. Seda liiki andmeid hindavad kõrgelt need, kes arendavad masintõlkesüsteeme, mille abil masintõlke tarkvara „õpib” inimese tõlgitud tekstidest, kuidas sõnu ja väljendeid õigesti ning sidusalt tõlkida. Sellistest andmetest võib abi olla ka muu keeletarkvara, nagu grammatika ja õigekirja spellerite, online-sõnaraamatute ja mitmekeelsete tekstiliigitamissüsteemide arendamisel.

Keelelise mitmekesisuse volinik Leonard Orban ütleb: „Selle algatusega kavatseb Euroopa Komisjon hoogustada keeletehnoloogia arengut, toetada keelelist mitmekesisust ning muuta arvutipõhist tõlget kergemaks, odavamaks ja kättesaadavamaks. Väikematesse keelekogukondadesse kuuluvad kodanikud pääsevad lihtsamalt ligi dokumentidele ja veebilehtedele, mis on kättesaadavad ainult suuremates keeltes.”

Euroopa Komisjoni teadusvolinik Janez Potočnik ütleb: „See ainulaadne keeleandmete kogu aitab luua keeletöötluse jaoks uue põlvkonna tarkvara ning edendada konkurentsivõimet keeletööstuses, mis ongi juba üks kõige kiiremini arenevaid tööstusharusid Euroopa Liidus.”

Euroopa Liidu institutsioonidel on rohkem mitmekeelseid tekste kui ühelgi teisel organisatsioonil, sest nõuete kohaselt peavad Euroopa Liidu õigusaktid olema kättesaadavad kõigis ELi 23 ametlikus keeles. Institutsioonide tõlketeenistused töötavad 253 võimaliku keelepaari kombinatsiooniga ning toodavad ligikaudu 1,5 miljonit tõlkelehekülge aastas.

Kui inglis- või prantsuskeelsete tekstide tõlkeid võib Internetist leida hulganisti, siis näiteks läti või rumeenia keele puhul selliseid ressursse palju ei ole ja praktiliselt võimatu on leida kahe niisuguse keele tõlkekombinatsioone, millel on vähe keeleressursse.

Seepärast annab komisjon koostöös oma ametkonnas töötavate teadlaste ja tõlkijatega vabaks kasutamiseks oma hiigelsuured lausekogud, mis on pärit tehnilisi, poliitilisi ja sotsiaalseid küsimusi hõlmavatest õigusdokumentidest ja on saadaval 22 keeles. Sellest tõlkevaramust on võimalik leida lauseid koos vastetega kõigis ametlikes keeltes. Puudub veel ainult iirikeelne tõlge. Praegune keeleandmete vabaks kasutamiseks andmine on hea näide komisjoni avatud poliitikast oma teabeallikate taaskasutamise lubamisel. Varasemad head näited on Euroopa õigusaktide andmebaasi Eur-Lex ja terminoloogia andmebaasi IATE avamine.

Komisjonil on mitmekeelsete tekstitöötlusvahendite arendamisel laialdased kogemused ning ta on keelelise mitmekesisuse alal esirinnas, pakkudes oma veebivahendi „European Media Monitoring” kaudu avalikkusele kättesaadavaid uudiste otsingusaite 35 keeles. Teadusuuringute, tehnoloogiaarenduse ja tutvustamistegevuse seitsmenda raamprogrammi info- ja sidetehnoloogiat käsitlevas osas toetatakse masintõlke ja muude keeletehnoloogiate uuringuid.

Tõlkeandmekogude kohta saab täiendavat teavet aadressil:

http://langtech.jrc.it/DGT-TM.html

European Media Monitor asub aadressil:

http://emm.jrc.it/overview.html


Side Bar