Jak je zřejmé z příkladů, existují nesčetné podoby textové analýzy, a tisíce způsobů pro její využití jak v procesu vyhledávání, analýzy obsahu, tak při výsledné archivaci dat.
Kde vzít texty?
Textem v kontextu textové analýzy nemusí být jen klasická kniha, ale i text extrahovaný z webových stránek, sociálních médií (jako například soubor Tweetů, statusů na Facebooku nebo popisků fotografií na Instagramu), emailová komunikace nebo texty písní. Díky projektům jako Google Books nebo Project Gutenberg můžete pracovat s nepřeberným množstvím textů v digitální podobě.
Velmi dobrým materiálem jsou tzv. korpusy, soubory textů v elektronické podobě, ve kterých můžete vyhledávat slova nebo slovní spojení a zjišťovat, v jakém kontextu se nachází. Nejznámějšími typy jsou korpusy mluveného a psaného jazyka, na kterých lingvisté zkoumají, jak se používá a vyvíjí konkrétní jazyk (například Český národní korpus). Existují ale i korpusy literatury z konkrétních období nebo jazykových oblastí, právnické korpusy, korpusy hudebních textů z různých žánrů, z televizních seriálů, telenovel, filmů nebo časopisů.
A kde najít textové korpusy? Například pomocí platformy KonText. Na tomto webu najdete textové korpusy, v široké škále témat i jazyků. Namátkově se zde nachází korpus komunikace letových dispečerů, data z Facebooku přímo určená pro analýzu sentimentu, ale také webové korpusy. Datasety pro práci s textem můžete najít také přímo v tzv. Virtual language observatory, která se nachází na webu projektu Clarin. Zde najdeme tisíce textů, nebo textových korpusů. Jen v češtině tu je například korpus ze zpravodajství, česko-slovenský paralelní korpus, nebo korpus z parlamentních schůzek.
A jak se pracuje s textovou analýzou u nás?
Metoda počítačové analýzy textu a práce s textovými korpusy má dlouhou historii také na Masarykově Univerzitě, kde se můžete inspirovat celou řadou zajímavých projektů. Zde najdete několik projektů z různých oblastí práce s texty.
Zpracování přirozeného jazyka
Velkou výzkumnou oblastí je zpracování přirozeného jazyka, kterou se na MU zabývá Centrum pro zpracování přirozeného jazyka. Zaměřuje se hlavně na korpusovou lingvistiku, lexikálních databáze a využití metod strojového učení pro automatické zpracování textů. Kromě výzkumů v oblasti komunikace stroj-člověk, se NLP zabývá internetovými technologiemi pro analýzu, vytěžování a generování textů a celou řadu nástrojů také vyvíjí. Mezi ně patří například Sketch Engine, což je nástroj pro práci s korpusy a analýzu textu, ale také slovníky, nástroje pro predikci textu, generování náhodných textu, nebo například doplňování čárek ve větách. Jiné aplikace a nástroje, na kterých se NLP podílí umožňují detekovat témata v textu, nebo rozpoznat, zda texty vytvořil člověk či počítač.
Co můžete zjistit z korpusu francouzského rapu...
Jedním ze skvělých příkladů je RapCor neboli korpus francouzského rapu, který vznikl při Ústavu románských jazyků a literatur Filozofické fakulty Masarykovy univerzity. Korpus, který je postupně aktualizován od roku 2009 obsahuje více než 4500 skladeb ve francouzštině.