Rozpoznanie jazyka

Možno prevádzkujete server alebo aplikáciu, do ktorých zadávajú texty rôzni prispievatelia v rôznych jazykoch. Príspevkov je veľa a zmysel majú len vtedy, keď ich niekto bude čítať. Implementujete preto vyhľadávač, ale čoskoro zistíte, že by sa vám hodil nástroj, ktorý dokáže automaticky rozpoznať, v akom jazyku je daný článok napísaný. A práve v tom by vám mohol pomôcť komponent Rozpoznanie jazyka.

Jazyková časť

Naša firma sa už roky zaoberá vývojom jazykových nástrojov pre veľké množstvo jazykov. Ak si podrobnejšie preštudujete články o ostatných komponentoch, zistíte, že ani zďaleka nejde len o zoznam slov, ale o dôsledný popis morfológie. Za obdobie, počas ktorého sa touto problematikou zaoberáme, máme dostatok znalostí i potrebných dát na to, aby sme mohli vyvinúť nástroj schopný rozpoznať, z ktorého jazyka slovo pochádza.

Programové riešenie

Na rozdiel od väčšiny ostatných nástrojov nepracuje modul Rozpoznania jazyka len s jedným slovom, ale s celým úsekom textu. Je to preto, že čím dlhší text zadáte na jeho vyhodnotenie, tým spoľahlivejšie program určí východiskový jazyk. V takých príbuzných jazykoch, akými sú slovenčina a čeština, sa neraz vyskytne veta, ktorá je správne po česky aj po slovensky. Jeden odstavec v rozsahu 100 slov by však už mal na odlíšenie v každom prípade stačiť.

Dostupné funkcie

Modul na rozpoznanie jazyka umožňuje spoľahlivo detekovať všetky jazyky, ktoré ponúkame (pozri tabuľku). Implementovaný je takisto na väčšine platforiem.