Informatívny preklad

Takto nazývame možnosť preložiť celé vety a články z jedného jazyka do druhého. Preklad síce nie je a ešte nejaký čas nebude dokonalý, umožňuje však čitateľovi vo všeobecnej rovine pochopiť, o čom sa v danom článku alebo na webovej stránke píše. V súčasnosti ponúkame túto možnosť pre preklad z angličtiny či nemčiny do češtiny. Kvalita prekladu z angličtiny je porovnateľná s inými projektmi Google Translate a Microsoft Bing, kvalita prekladu z nemčiny je o niečo lepšia z toho dôvodu, že sa prekladá priamo z nemčiny do češtiny, a nie cez angličtinu, ako to robia nástroje amerických firiem.

Jazyková časť

V tomto smere už nie je možné vystačiť len so slovníkom a morfológiou. Treba vyriešiť tri základné problémy:

  1. Výber správneho významu, čo sa týka všetkých viacvýznamových slov
  2. Poradie slov vo vete, napr. v angličtine je poradie slov viac-menej dané, v slovenčine je voľné.
  3. Idiomatickosť a dalšie atypickosti jednotlivých jazykov

Pri preklade celých viet leží pred nami jazyk v celej svojej kráse, histórii, ale, bohužiaľ, aj zložitosti. Vývoj prekladových nástrojov v posledných rokoch čiastočne rezignoval na hľadaní dokonalého teoretického opisu jazyka a presunul sa do oblasti štatistiky a korpusov. Proces strojového prekladu si môžete jednoducho predstaviť tak, že na jednu veľkú hromadu dáme paralelné vety z daného jazykového páru, t. j. napr. angličtiny a slovenčiny, ktoré preložili skutoční prekladatelia a možno teda s vysokou pravdepodobnosťou predpokladať, že sú až na výnimky správne. Ak je tento paralelný korpus dostatočne veľký, tak sa aj tie občasné chybky v mori iných správne preložených textov stratia. Z tohto korpusu potom programovo vytvoríme tzv. prekladový model, ktorý v zásade opisuje, ako prevádzať časti viet z východiskového jazyka do cieľového. Ďalej sa vezme ešte oveľa väčšia hromada textov z cieľového jazyka, v našom prípade zo slovenčiny. Z tohto korpusu sa následne vytvorí tzv. jazykový model, ktorý - zjednodušene povedané - opisuje, ako vyzerajú správne utvorené slovenské vety. A nad oboma modelmi potom pracuje program, ktorý pomocou štatistických metód vyberá zo všetkých možností tú zdanlivo najlepšiu.

Treba však priznať, že súčasný stav vývoja u nás aj vo svete stále nestačí na to, aby bol výsledok natoľko kvalitný, že nahradí prekladateľov. Prirodzený živý jazyk je skrátka natoľko zložitý a jazyky ako angličtina a slovenčina tak principiálne odlišné, že terajší nástroj dobre poslúži ako informatívny preklad, pre samotný proces prekladania však veľkým prínosom nie je. Na to slúžia tzv. CAT nástroje. 

Programové riešenie

Na štatistický preklad používame v súčasnosti hlavne nástroj Moses, výsledok dlhoročného vývoja niekoľkých európskych univerzít na čele s University of Edinburgh. Ten poskytuje základnú platformu a pridaním prekladových a jazykových modelov a konfigurácie vzniká z neho funkčný prekladový systém. Hardvérové nároky sú dané veľkosťou modelov a konfigurácií. Jednoduchá konfigurácia s malými modelmi je schopna pracovať aj na hardvérovo pomerne obmedzených zariadeniach, na ich výstupe však nemožno očakávať žiadne zázraky. Príliš komplikovaná konfigurácia alebo konfiguracia s príliš veľkými modelmi môže naopak jedinú vetu prekladať neprípustne dlho aj na špičkovom serveri. Konfigurácia, ktorá dáva pekné výstupy, vyžaduje pamäť rádovo v desiatkach GB. Konfigurácia hardvéru môže tak skutočne byť limitujúcim faktorom kvality a rýchlosti prekladu. Prekladové a jazykové modely pripravujeme na mieru tomu, aké texty sa budú prekladať. V tomto prípade hovoríme o tzv. doméne, napr. doména textov automobilového priemyslu. Čím je doména užšia a dostupné prekladové a jazykové korpusy väčšie, tým je preklad kvalitnejší. Pri príprave modelov s výhodou používame aj vlastné korpusy, prekladové slovníky, terminologické databázy, morfológie a techniky ich kombinácie, ktoré nám umožňujú dosahovať lepšie výsledky pri menších modeloch.