Korektor preklepov
Korektor preklepov v slovenských slovách je softvérové a lingvistické dielo značného rozsahu. Nejde totiž len o nahromadenie rozsiahlej slovnej zásoby, ale o dlhodobo budovaný komplexný popis slovenského jazyka s možnosťou rozširovania na ďalšie použitie: prekladové slovníky, gramatický korektor, automatizovaný preklad.
Korektor preklepov nachádza najčastejšie využitie v textových editoroch, DTP systémoch, OCR programoch, ale aj v ďalších špecializovaných aplikáciách, kde je potrebné skontrolovať správnosť textu napísaného v prirodzenom jazyku.
Jazyková časť
Štruktúra slovníka je založená na formálnom popise morfológie a na detailnom systéme vzorov. Tento popis umožňuje z jedného slovného základu (kmeňa) generovať až niekoľko desiatok odvodených tvarov, napr. v slovenských slovách
milovať: milovať, milujem, miluješ, milujeme, miloval, milovala, milovali, milovaný, milovaná, milovaného, milovaní, ...
brat: brat, brata, bratovi, bratom, bratia, bratoch, bratov, bratova, bratovo, bratove, ...
Bohatú slovotvorbu majú najmä slovanské jazyky. No aj v románskych jazykoch majú slovesá množstvo rôznych tvarov, napr. vo francúzštine
parler: parle, parles, parlons, parlez, parlent, parlais, parlait, parlions, parliez, parlaient, parlerai, parlé, parlant, ...
V ruštine je zasa potrebné vziať do úvahy zvratné zámená, ktoré sa píšu dovedna s niektorými tvarmi:
женится: женюсь, женишься, женится, женись, женилась, женились, ...
Podobné je to aj v španielčine, kde sa okrem toho môžu so slovesom písať aj osobné zámená (poner->ponlo, decir->dime, escuchar->escúchala)
Extrémne rozmery nadobúdajú tvary v maďačine, kde sa slová tvoria pomocou sufixov. Maďarčina rozoznáva okrem dvoch čísel aj 30 pádov a dva druhy privlastňovania (patriaci danému objektu a patriaci osobe):
ház: házak, házat, háznak, házzal, házig, házé, házéi, házaké, házakéi, házamé, házadé, házáé, ...
Všetky slová, ktoré vytvárajú odvodené tvary zhodným spôsobom, sa priraďujú k jednému vzoru. Každý korektúrový slovník sa potom skladá z dvoch hlavných častí:
- slovníka vzorov: obsahuje lingvistickú informáciu o tvorení tvarov, alternáciách koreňa a popis gramatických kategórií
- slovník kmeňov: obsahuje základnú slovnú zásobu kmeňov väčšiny slov daného jazyka
Popis slov vyššie uvedeným spôsobom je úplný v tom zmysle, že okrem slov s pravidelným odvodzovaním postihuje aj slová:
- s alternáciami koreňa (napr. slovenské pes->psa, nemecké Bruder->Brüder)
- s úplnou zmenou kmeňa (napr. anglické go->went, nemecké essen->isst, slovenské hnať->ženie)
- nepravidelné slová (byť, jesť, chcieť)
Popis je ďalej všeobecný do takej miery, že umožňuje vytvoriť slovník nielen pre slovenčinu a čestinu, ale aj pre ďalšie európske jazyky. Vyrovná sa napr. so zvratnými slovesami v ruštine, opisným stupňovaním v angličtině alebo poľštine, stiahnutými tvarmi vo francúzštine, odlučiteľnými predponami v nemčine, zlučovaním slovesných tvarov so zámenami v španielčine alebo bohatým vytváraním tvarov pomocou sufixov v maďarčine.
Programové riešenie
Vzhľadom na efektivny algoritmus komprimácie a celkového generovania slovníka je programové rozhranie dosť krátke, a tiež ľahko použiteľné v ľubovoľnom softvérovom produkte.
Dostupné funkcie
- Overenie, či je dané slovo v slovníku. Táto funkcia kontroluje aj správnosť použitia veľkého písmena na začiatku slov, kde je to nutné (Bratislava, Mária, Eisenhower, ...), veľkých písmen v celom slove (USA, IBM) alebo zakončenie slova bodkou (atď., ap.).
- Ponuka opráv. Táto funkcia vygeneruje všetky také slová, z ktorých mohlo dané slovo vzniknúť preklepom: vložením ľubovoľného písmena, zmenou ľubovoľného písmena na iné, vynechaním písmena alebo zámenou dvoch susedných písmen.
- Obsluha používateľských slovníkov, resp. špeciálnych slovníkov na automatickú zámenu chybných slov.
- Nastavenie parametrov, napr. ignorovanie akronymov, jednopísmenových slov, slov s číslicami ap.
V súčasnosti ponúkame kontrolu preklepov pre širokú škálu jazykov (pozri tabuľku). Implementovaná je tiež na väčšine platforiem.
Referencie
Funkčnosť a rýchlosť nášho riešenia si môžete overiť napr. v programoch Microsoft Office od verzie Office 95 vyššie. Náš korektor pravopisu využívajú ďalej textový editor firmy Software602, predtým obľúbený Corel WordPerfect, sádzací systém Adobe PageMaker, OCR programy, redakčné systémy a i.