Textová analýza

Analýza textu pomocí počítačových nástrojů je jednou z nejzákladnějších a nejdéle používaných metod v Digitálních humanitních vědách. Jedná se o proces, při kterém nám počítač pomáhá prohledávat, analyzovat ale i vizualizovat velké množství textových dat, které by jinak bylo obtížné (a někdy zcela nemožné) zpracovat tradičními metodami.

4. 6. 2021 Veronika Wölfelová

Metodu počítačové analýzy textu (i když ve velmi zjednodušené podobě) jako první použil Robert Busa, jehož Index Thomisticus je považován za první “vlaštovku” a moment zrodu Digitálních humanitních věd. Dnes je textová analýza metodou, která má své místo v celé řadě disciplín jako jsou literární vědy, jazykověda, zpracování přirozeného jazyka, ale také v sociálních vědách, nebo dokonce marketingu.

Jak vznikal první Digital Humanities projekt

Příběh italského jezuity Roberta Busy se s trochou nadsázky stal legendou v historii Digitálních humanitních věd. Roberto Busa, katolický kněz a teolog, který se zabýval dílem Tomáše Akvinského hledal způsob, jak lépe, a efektivněji studovat Akvinského spisy, moci v nich rychleji vyhledávat a pracovat s nimi jako s jedním korpusem textů. Když se ve 40. letech 20. století Busa dozvěděl o raných počítačových technologiích, které by jeho výzkumu mohly pomoci, spojil se se zakladatelem IBM Thomasem J. Watsonem, čímž začala několikaletá práce na lemmatizaci Akvinského spisů a převedení díla do digitální podoby. Výsledkem více než 30 let práce je tzv. Index Thomisticus, dnes plně digitální lemmatizovaný korpus díla Tomáše Akvinského.

K čemu slouží textová analýza? Aneb Jak přečíst tisíce knih...

Představte si, že se jako vědec zabýváte například literárními díly z období romantismu. Pokud budete postupovat tradičními metodami, vyhledáte si několik reprezentativních děl z tohoto období, přečtete je, a provedete interpretaci každého z děl. Nebo jste politolog, který chce prozkoumat, jak lidé na sociálních sítích reagovali na nějakou politickou událost.

Můžete si přečíst několik komentářů a příspěvků na Twitteru nebo Facebooku, a zpracovat z nich analýzu. Toto jsou klasické příklady tzv. “Close reading”, tedy “čtení zblízka”. Touto metodou můžete velmi dobře přečíst a zpracovat desítky i stovky textů. Co když jsou ale takových textů tisíce?

V roce 2000 přišel italský profesor Franco Moretti s konceptem tzv. “Distant reading” neboli “čtením na dálku”. Argumentoval tím, že není v lidských silách přečíst například všechna literární díla z období romantismu nebo všechny články a příspěvky popisující jednu událost, a tím se podle něj ochuzujeme o velké množství dat.

Abyste mohli prozkoumat větší množství textů a našli v nich vzorce nebo převažující sentiment, aniž byste je četli jeden po druhém, pomohou vám nástroje počítačové analýzy textů. Můžete tak zpracovávat celé korpusy literárních děl, textů písní, elektronické komunikace, ale i příspěvků na sociálních sítích. Textová analýza odhalí vzorce, které byste běžným čtením přehlédli.

Close reading	Distant reading
soustředí se na hloubkové zpracování menšího množství textu je více subjektivní jeho nespornou výhodou je interpretace člověk lépe, než počítač porozumí významu slov a textu	zaměřuje se velké množství textu, které by nebylo v lidských silách přečíst a zpracovat objektivnější, pracuje se statistickými metodami

Různé podoby textové analýzy

To, co si lidé nejčastěji spojují s analýzou textu je počítání frekvence slov a výrazů. Přitom textová analýza nabízí mnohem víc. Zajímavým příkladem je analýza sentimentu. Tato metoda se snaží odhadovat nálady pomocí analýzy výskytu citově zabarvených výrazů. Pokud se v textu objevuje smrt, smutek, starost nebo bolest, je nálada vyhodnocena jako negativní. Naopak, výrazy jako radost, štěstí, láska či potěšení značí pozitivní “náladu”. Tuto metodu využili autoři projektu Hedonometer. Demonstrovali střídání smutných a šťastných momentů v knihách o Harry Potterovi. Pokud jste si tedy při čtení knih nebo sledování filmů všimli, že ke konci je příběh mnohem “depresivnější”, analýza sentimentu vám dává za pravdu:

Stejným způsobem můžete zjistit, jak konkrétní události ovlivnily náladu v příspěvcích na Twitteru, nebo jaká je nálada u recenzí konkrétních filmů. Jedním zajímavým příkladem je pokus o stanovení “nejšťastnějšího dne roku” dle příspěvku lidí na sociální síti Twitter.

Analýzu sentimentu hojně využívá také finančnictví. Analytici se podle nálady lidí snaží předvídat jejich chování na finančním trhu.

Jiným typem práce s textem je tzv. Topic modelling neboli modelování témat. Počítač určí téma nebo motiv textu na základě slov, která se vyskytují spolu v clusterech. A kde se dá Topic modelling využít v humanitním výzkumu? Vědci z Americké univerzity v Berkeley hledali způsob, jak zjednodušit vyhledávání v archivech novin Pennsylvania Gazette, například podle témat jako jsou otroctví nebo válka. Když ale zkusili vyhledávání pomocí klíčových slov, naráželi příliš často na texty, které s tématem nijak nesouvisely. Našli proto slova, která se objevovala pohromadě například ve článcích o útěcích otroků, nebo občanských nepokojích. Toto jim umožnilo “vymodelovat” jaké clustery slov obvykle tvoří konkrétní téma, a dostávat tak přesnější výsledky. Jiným vědcům se pomocí metody modelování témat podařilo analyzovat tisíce děl z francouzského osvícenství a zjistit převládající témata těchto děl.

Zajímavým příkladem použití analýzy textu je tzv. mapování literatury. Díky automatickému rozpoznání geolokací v textu zjistíte, na kterých místech se odehrává děj konkrétního díla, nebo zda mají určité literární směry a žánry oblíbené lokality. V kombinaci s analýzou sentimentu takto vědci ze Stanfordské univerzity vytvořili mapu Londýna, jak ho ve svých knihách popisovali autoři detektivních románů a krásné literatury. Podobný projekt je mapa portugalské literatury, kterou tvoří vědci a studenti z University v Lisabonu.

Jak je zřejmé z příkladů, existují nesčetné podoby textové analýzy, a tisíce způsobů pro její využití jak v procesu vyhledávání, analýzy obsahu, tak při výsledné archivaci dat.

Kde vzít texty?

Textem v kontextu textové analýzy nemusí být jen klasická kniha, ale i text extrahovaný z webových stránek, sociálních médií (jako například soubor Tweetů, statusů na Facebooku nebo popisků fotografií na Instagramu), emailová komunikace nebo texty písní. Díky projektům jako Google Books nebo Project Gutenberg můžete pracovat s nepřeberným množstvím textů v digitální podobě.

Velmi dobrým materiálem jsou tzv. korpusy, soubory textů v elektronické podobě, ve kterých můžete vyhledávat slova nebo slovní spojení a zjišťovat, v jakém kontextu se nachází. Nejznámějšími typy jsou korpusy mluveného a psaného jazyka, na kterých lingvisté zkoumají, jak se používá a vyvíjí konkrétní jazyk (například Český národní korpus). Existují ale i korpusy literatury z konkrétních období nebo jazykových oblastí, právnické korpusy, korpusy hudebních textů z různých žánrů, z televizních seriálů, telenovel, filmů nebo časopisů.

A kde najít textové korpusy? Například pomocí platformy KonText. Na tomto webu najdete textové korpusy, v široké škále témat i jazyků. Namátkově se zde nachází korpus komunikace letových dispečerů, data z Facebooku přímo určená pro analýzu sentimentu, ale také webové korpusy. Datasety pro práci s textem můžete najít také přímo v tzv. Virtual language observatory, která se nachází na webu projektu Clarin. Zde najdeme tisíce textů, nebo textových korpusů. Jen v češtině tu je například korpus ze zpravodajství, česko-slovenský paralelní korpus, nebo korpus z parlamentních schůzek.

A jak se pracuje s textovou analýzou u nás?

Metoda počítačové analýzy textu a práce s textovými korpusy má dlouhou historii také na Masarykově Univerzitě, kde se můžete inspirovat celou řadou zajímavých projektů. Zde najdete několik projektů z různých oblastí práce s texty.

Zpracování přirozeného jazyka

Velkou výzkumnou oblastí je zpracování přirozeného jazyka, kterou se na MU zabývá Centrum pro zpracování přirozeného jazyka. Zaměřuje se hlavně na korpusovou lingvistiku, lexikálních databáze a využití metod strojového učení pro automatické zpracování textů. Kromě výzkumů v oblasti komunikace stroj-člověk, se NLP zabývá internetovými technologiemi pro analýzu, vytěžování a generování textů a celou řadu nástrojů také vyvíjí. Mezi ně patří například Sketch Engine, což je nástroj pro práci s korpusy a analýzu textu, ale také slovníky, nástroje pro predikci textu, generování náhodných textu, nebo například doplňování čárek ve větách. Jiné aplikace a nástroje, na kterých se NLP podílí umožňují detekovat témata v textu, nebo rozpoznat, zda texty vytvořil člověk či počítač.

Co můžete zjistit z korpusu francouzského rapu...

Jedním ze skvělých příkladů je RapCor neboli korpus francouzského rapu, který vznikl při Ústavu románských jazyků a literatur Filozofické fakulty Masarykovy univerzity. Korpus, který je postupně aktualizován od roku 2009 obsahuje více než 4500 skladeb ve francouzštině.

Díky němu například zjistíte, jak se do francouzštiny dostávají arabské výrazy (arabismy), jak často se v těchto skladbách objevují vulgarismy, které slangové výrazy přibyly do mluveného jazyka, jak se v písních odráží politická situace nebo jak se vyvíjí jazyk a tematika v kariéře konkrétních umělců.

Ať žije král, Živ buď král nebo Žij dlouho král? Kapradí-aneb jak se překládá anglické drama

Zajímavým projektem, a velmi cenným materiálem nejen při studiu dramatu, je projekt Kapradí, což je elektronická databáze přibližně 400 dramatických textů (originálních anglických her a českých překladů vzniklých do poloviny 20. století). Díky rozhraní si uživatel může paralelně zobrazit jak originál hry, tak jeho vybrané překlady, což skvěle ilustruje rozmanitost přístupů různých autorů k jednomu textu.

Znamená snad Distant reading konec tradičních metod zkoumání textů? A nahradí v budoucnu práci literárních vědců nebo jazykovědců? Rozhodně ne. I když počítače dokáží zpracovat obrovské množství textů, spočítat výskyt slov, vizualizovat vztahy mezi postavami literárních děl nebo zjistit sentiment tisíců twitterových příspěvků, jsou to nakonec vědci, kteří výsledky interpretují a dávají do kontextu. Každopádně, díky metodě Distant reading budete na texty nahlížet ze zcela nové perspektivy.