Navigation path

Left navigation

Additional tools

IP/08/60

Bryssel, 18. tammikuuta 2008

Euroopan komissio tukee tietokoneavusteista kääntämistä tekstikokoelmalla

Euroopan komissio tehostaa toimiaan monikielisyyden edistämiseksi olennaisena osana moninaisuudessaan yhtenäistä Eurooppaa. Komission noin miljoonan virkkeen tekstikokoelma laadukkaine käännöksineen 22:lla EU:n 23:sta virallisesta kielestä – mukaan luettuna uusimpien jäsenvaltioiden kielet – on kaikkien aikojen suurin kokoelma näin monella kielellä, ja nyt se on saatavana vapaasti. Tällainen data on haluttua tavaraa konekäännösjärjestelmien kehittäjien keskuudessa, koska automaattisia käännösohjelmia voidaan ”opettaa” valmiiksi käännettyjen tekstien avulla kääntämään sanoja ja virkkeitä oikein ja kontekstin huomioon ottaen. Se helpottaa myös muiden kieliteknologisten sovellusten, kuten kieliopin ja oikeinkirjoituksen tarkistusohjelmien, verkkosanastojen ja monikielisten tekstinluokittelujärjestelmien kehittämistä.

Monikielisyydestä vastaava EU-komissaari Leonard Orban toteaa: ”Tällä hankkeella Euroopan komissio edistää kieliteknologiaa, tukee monikielisyyttä ja tekee tietokoneavusteisesta kääntämisestä helpompaa, edullisempaa ja saavutettavampaa. Pienempien kieliyhteisöjen edustajat saavat paremmat mahdollisuudet tutustua asiakirjoihin tai verkkosivuihin, jotka ovat saatavana vain yleisimmillä kielillä.”

Tieteestä ja tutkimuksesta vastaava EU-komissaari Janez Potočnik toteaa: ”Tämän ainutlaatuisen kielellisen datakokoelman avulla voidaan kehittää uuden sukupolven kieliteknologisia sovelluksia ja tukea kieliteollisuuden kilpailukykyä. Kieliteollisuus on jo yksi nopeimmin kasvavista teollisuudenaloista EU:ssa.”

EU:n toimielimillä on enemmän monikielisiä tekstejä kuin millään muulla organisaatiolla, koska EU-lainsäädännön on oltava saatavana kaikilla 23 virallisella kielellä. Niiden käännösorganisaatiot työskentelevät 253 mahdollisen kielipariyhdistelmän kanssa ja ne tuottavat noin 1,5 miljoonaa käännössivua vuodessa.

Vaikka internetissä on tarjolla runsaasti englannin- ja ranskankielisiä käännöksiä, esimerkiksi latvian- tai romaniankielisiä käännöksiä on paljon vähemmän, ja kahden tällaisen pienemmän kielen yhdistelmiä löytyy tuskin lainkaan.

Siksi komissio julkistaa – omien kääntäjiensä ja asiantuntijoidensa tuella – laajoja virkekokoelmia, jotka ovat peräisin oikeudellisista asiakirjoista. Asiakirjat käsittelevät teknisiä, poliittisia ja yhteiskunnallisia kysymyksiä ja ne ovat saatavana 22 kielellä. Tässä käännöstietokannassa voidaan löytää virkkeille vastine kaikilla virallisilla EU-kielillä. Vain iirinkieliset käännökset puuttuvat toistaiseksi. Kielidatan antaminen on hyvä esimerkki tietoresurssien uudelleenkäyttöä koskevasta komission avoimesta politiikasta ja se on jatkoa EU:n asiakirjatietokannan (Eur-Lex) ja termitietokannan (IATE) avaamiselle suurelle yleisölle.

Komissiolla on mittava kokemus monikielisten tekstien käsittelyyn tarvittavien työkalujen kehittämisessä, minkä myötä se on monikielisyyden eturintamassa: se tarjoaa julkisia uutishakusivustoja jopa 35 kielellä European Media Monitoring -työkalunsa avulla. Tutkimuksen ja kehityksen seitsemännen puiteohjelman tieto- ja viestintäteknologioita koskevassa osiossa tuetaan konekääntämisen ja muiden kieliteknologioiden tutkimusta.

Lisätietoja käännösdatasta:

http://langtech.jrc.it/DGT-TM.html

European Media Monitor löytyy verkkosivulta:

http://emm.jrc.it/overview.html


Side Bar