Co je korpus?

Korpus je soubor počítačově uložených textů (v případě mluveného jazyka - přepisů záznamu mluvy), který slouží k jazykovému výzkumu. K práci s tímto korpusem slouží speciální vyhledávací program KonText. S jeho pomocí je možné vyhledávat slova a slovní spojení v kontextu a zjistit jejich frekvenci v korpuse i původní textový zdroj. Umožňuje i další zpracování nalezeného (např. abecední třídění apod.). U některých korpusů lze vyhledávat například i podle slovních druhů (a mnoha dalších gramatických kategorií).

Český národní korpus (ČNK) je akademický projekt zaměřený na budování rozsáhlého počítačového korpusu především psané češtiny. Pracuje na něm Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze (ÚČNK). Od svého založení roku 1994 má ÚČNK na starosti budování ČNK, jeho rozvoj a rovněž činnosti související, zvláště v oblasti výuky a pěstování oboru korpusová lingvistika.

Korpus versus Internet

Na první pohled se s rozvojem Internetu může nabízet otázka, jestli vůbec má smysl budovat korpusy, zvláště pro účely jazykového výzkumu. Na Internetu je přece k dispozici nepřeberné množství textů, které mohou sloužit jako materiál pro jazykovědný výzkum a Internet, resp. informace v něm stále roste. To je do značné míry pravda, ale používání korpusu má některé a pro někoho jistě zásadní výhody, které Internet nemá a zřejmě rychle mít nebude.

Povaha informace a dat, zvláště jejich stálost

Internet vzniká živelně a mění se každým dnem, ba hodinou. Není možné zjistit počet slov, které jsou obsaženy v dokumentech prohledávaných internetovým vyhledávačem a pokud by to šlo, zjištění nebude platit dlouho, nedá se tedy spolehlivě ani citovat.Texty, které jsou na webu dnes, tam nemusí být zítra. Korpusy jsou naproti tomu neměnné a vždy je možné zjistit přesně jejich velikost; každý korpus zůstává stálou referenční entitou, ke které se můžeme opakovaně kdykoliv vracet, opakovaně citovat ap.; to pochopitelně neplatí o Internetu. Ke každému korpusu je k dispozici také mj. podrobná dokumentace. Navíc není zatím vůbec jasné, jestli „staré“ texty, na rozdíl od korpusu, na Internetu zůstanou vždy, webové stránky se také často ruší. Diachronní korpus přitom v Internetu vůbec nemá „konkurenta“, žádné diachronní Internety neeexistují.

Vyváženost informace a dat

Texty jsou do korpusu zařazovány podle předem určených poměrů tak, aby co nejvěrněji reprezentovaly daný jazyk. Přestože jejich získávání a zařazování bývá často u menšinových typů pracné, do korpusu se vědomě kvůli jeho vyváženosti zařazují. Na Internetu budou převažovat publicistické texty, odborné texty z oblasti výpočetní techniky, texty z různých diskusí, bulvár atd. Naproti tomu například beletrie nebude zastoupená dostatečně a některé žánry, zvláště z oblasti mluveného jazyka, tam nalezneme velmi těžko, pokud vůbec.

Specializace korpusového manažeru na zpracování lingvistických dat

Internetové stránky prohledáváme vyhledávačem, korpus pak korpusovým manažerem. Nástroje pro vyhledávání na Internetu však nejsou primárně orientované na získávání lingvistických informací. Korpusové manažery naproti tomu obsahují mnoho užitečných nástrojů pro vyhledávání a třídění textového materiálu (nabízí se tu bohatý dotazovací jazyk). Takové funkce pravděpodobně nikdo nikdy do webových vyhledávačů nepřidá, pro drtivou většinu uživatelů by to bylo zcela zbytečné. Jazyk je pro většinu uživatelů internetových vyhledávačů prostředkem při získávání jiných informací, nikoliv cílem sám o sobě, jak tomu je při práci s korpusovými nástroji. Korpusová informace skrze jazyk je pak už věcí často nejednoduché interpretace.

Kvalita výstupu informace z korpusu

Výstupem internetového vyhledávače je seznam odkazů na relevantní stránky. Ukazují sice kontext, ve kterém se hledaný výraz vyskytl, ale ten je příliš malý a jeho velikost uživatel neovlivní; lingvista naproti tomu často potřebuje kontext větší. Texty na webu jsou doplněny často velkým množstvím grafiky, hypertextových odkazů atd., které většinou nepotřebujeme, zajímá-li nás jazyk sám o sobě.  Některé texty na Internetu jsou navíc bez diakritiky. Naproti tomu výstup z korpusu je čistý text, v němž kontext vyhledaného slova můžeme měnit stejně tak jako můžeme upřednostňovat jen některé zdroje proti jiným.

Anotace korpusových dat a dodaná informace

U textů z Internetu je někdy obtížené určit autora a původ textu. Korpusové texty jsou z hlediska zdroje pečlivě anotovány a u každého textu jsou k dispozici podrobné bibliografické údaje. Navíc mívají korpusové zdroje bohatou dodanou informaci o slovech, větách apod., které do nich vkládají na základě své analýzy lingvisté; ta k dispozici jinde pochopitelně není.

František Čermák
Jan Kocek