Automatické dopĺňanie mäkčeňov a dĺžňov

Možno máte skúsenosti s existujúcimi počítačovými systémami, servermi a internetovými stránkami. Hoci pokrok nezadržateľne napreduje, nie vždy berú vývojári ohľad na lokalizáciu produktov. Niektorí sa písaním diakritických znamienok nezaoberajú vôbec, iní sa zas spoliehajú na to, že systém si lokalizáciu vyrieši po svojom. A tak sa často stretávame s tým, že niečo napíšeme správne po slovensky, no keď si ten istý text chce prečítať niekto iný na inom počítači, zobrazí sa mu spleť nezrozumiteľných symbolov, ktoré potom prácne lúšti, písmeno za písmenom.

Na vine sú spôsoby kódovania používané rôznymi systémami – Windows preferuje kódovú stránku 1250, Linux ISO-LATIN-2, Macintosh Mac Central Europe, a to hovoríme stále o slovenčine. Často sa nám totiž do cesty pripletú aj stránky 1252 alebo ISO-LATIN-1, ktoré sú určené síce západoeurópskym jazykom, no dosť často sa vyskytujú na zahraničných serveroch. K tomu sa pridáva snaha o unifikáciu kódovania všetkých svetových jazykov, ktorá vyústila do tzv. Unicode, resp. jeho úspornejšieho variantu UTF-8. Ten je však pre nešťastníkov, ktorých systém ho nedokáže zobraziť, už vonkoncom nečitateľný.

A ak k tomu prirátame aj fakt, že používateľ jednoducho nie je schopný špeciálny znak napísať, pretože na počítači je nainštalovaná iná klávesnica, než na akú je zvyknutý, niet divu, že si vyberie písanie bez mäkčeňov a dĺžňov, čo preňho predstavuje zrejme najmenšie zlo. Napriek tomu však môžu nastať mnohé nedorozumenia.

Jazyková časť

V dôsledku zmienených faktorov sa preto stále viac textov začína písať len pomocou znakov a-z, čo je síce na jednej strane pohodlné, na druhej však existujú stále spôsoby písanej komunikácie, kde je písanie bez mäkčeňov a dĺžňov neprípustné. Ťažko by ste napríklad čakali, že vám príde do schránky podobným spôsobom napísaná reklama, súdne rozhodnutie o vysťahovaní z bytu, alebo hoci len súkromný list, že by si prednášajúci na konferencii pripravil v tomto duchu svoju prezentáciu alebo že by vás internetové denníky častovali takto písanými článkami. Aj keď to posledné nie je až také nepredstaviteľné napríklad v Rumunsku, kde niektoré významné novinové servery diakritiku jednoducho neuznávajú.

Aj tak je však isté, že mäkčeňom a dĺžňom vyhubenie nehrozí, a ak ste sa už tiež dostali do situácie, keď ste ich z nejakého dôvodu museli dopĺňať, viete, koľko práce dá previesť čo len jeden odsek, a ako často vám niektoré písmeno vypadne. Pritom vo väčšine prípadov je prepis jednoznačný. Z tohto dôvodu sme pre vás pripravili komponent, ktorý dokáže mäkčene a dĺžne automaticky doplniť do textu. Ako však správne predpokladáte, nemusí byť tento prevod vo všetkých prípadoch jednoznačný. Aj v takých prípadoch vám však program uľahčí prácu, pretože z troch možných ponúk si používateľ môže vybrať vyhovujúcu napr. jednoduchým kliknutím myšou. To však už záleží na spôsobe integrácie komponentu do vášho produktu.

Programové riešenie

Ak sa nad problematikou pridávania mäkčeňov a dĺžňov zamyslíte hlbšie, zistíte, že zložitosť otestovania všetkých možných kombinácií nie je práve triviálna. Ak máte napríklad len trojpísmenové slovenské slovo sat písané bez diakritiky, určite vám napadne, že ide o sať. Súčasné počítače však zatiaľ, žiaľ, po slovensky nevedia, a prečo to nepovedať na rovinu, nevedia ani po anglicky. Musia preto mechanicky skúšať všetky možné kombinácie. V tomto prípade možno zo s urobiť š, z hlásky a á alebo dokonca ä a z písmena t ť, t. j. 2 x 3 x 2&nbsp= 12 kombinácií. Dôslednosť sa však vyplatí, pretože okrem očakávaného sať získate ďalšie správne výsledky, ktoré by vám možno ani nenapadli. Prvým je tvar šat. Správne je však aj šať, rozkazovací spôsob od slovenského slovesa šatiť. Celkovo teda získate tri ponuky z 12 možných. Počítače síce ešte nemajú znalosti ľudí, no o to dôslednejšie dokážu pracovať.

V mnohých slovách existuje len jedna možnosť prepisu (napr. priznat môže byť len priznať.) Tieto jednoznačné prípady môže potom program riešiť automaticky bez nutnosti zásahu zo strany používateľa.

Čo sa týka kódovania znakov, náš komponent dokáže pracovať s 25 rôznymi kódovými stránkami, a to vrátane Unicodu, UTF-8, azbuky alebo hebrejčiny.

Dostupné funkcie

V súčasnosti ponúkame modul na doplnenie mäkčeňov a dĺžňov pre širokú škálu jazykov (pozri tabuľku). Implementovaný je takisto na väčšine platforiem.