Tvorba korpusů a korpusová lingvistika
Korpusem se obecně rozumí rozsáhlý, strukturovaný a ucelený soubor textů daného jazyka, odborně zpracovaný a uložený v elektronické podobě. Pro práci s těmito korpusy se používají tzv. korpusové manažery. V korpusu, který je správně sestaven, je možné jednoduše vyhledávat výrazy a sledovat jazykové jevy, zejména slova a slovní spojení (kolokace) včetně frekvence (četnosti) různých jevů a jejich použití. V korpusu lze jednotlivé výrazy či jevy zkoumat v jejich přirozeném kontextu, a provádět tak daty doložený jazykový výzkum v rozsahu, který by bez digitálních technologií nebyl možný.
Jazykové korpusy jsou velmi užitečné jak při samotném studiu jazyka, tak při obsahové analýze literárních či jiných děl (texty písní a skladeb) nebo při překladu, kde jsou velmi užitečným podkladem tzv. paralelní korpusy.
Nástroje pro práci s korpusy
- Sketch Engine Sketch Engine (SkE) je software, který vyhledává slovní profily (word sketches), sdružuje je na základě gramatických relací a vytváří z korpusu tezaury.
- KonText Rozhraní KonText je webová aplikace, která slouží k přístupu ke korpusům ČNK a práci s nimi.
- TEITOK Online platforma pro práci s korpusy, slouží jako alternativa k KonTextu.
- NameTag NameTag je open-source nástroj pro rozpoznávání jmenných entit (NER). NameTag identifikuje vlastní jména v textu a zařazuje je do předem definovaných kategorií, jako jsou jména osob, míst, organizací atd.
- MorphoDiTa Morphological Dictionary and Tagger je open-source nástroj pro morfologickou analýzu textů v přirozeném jazyce. Provádí morfologickou analýzu, morfologické generování, tagování a tokenizaci a je distribuován jako samostatný nástroj nebo knihovna spolu s natrénovanými lingvistickými modely.
- Voyant Tools Voyant Tools je webový nástroj pro prohlížení a analýzu digitálních textů.