V kontextu digital humanities totiž nechápeme data čistě jako technické objekty uložené v databázi, ale jako nosiče interpretace, kontextu a kulturní paměti. Datasety nesou informace rukopisů, textových fragmentů, anotací, map nebo jazykových vrstev, a právě to je důvodem, proč se kolem humanitních věd vytvořil zvláštní ekosystém repozitářů, archivů a infrastrukturních platforem, které fungují jinak, s oborově specifickými rozdíly, než je tomu zvykem třeba u repozitářů přírodovědných.
Od univerzálních repozitářů k oborovým ekosystémům
Obecné repozitáře typu Zenodo mají jednu zásadní výhodu, kterou je stabilita. Přidělují DOI, dlouhodobě archivují a mají relativně jasná pravidla citování. Jsou tak ideální pro datasety, články, software nebo doprovodné materiály. Zkrátka vše, co může výzkum vyprodukovat.
Jenže humanitní data bývají komplikovanější. Co například znamená dataset u kritické edice středověkého textu? Jde o přepisy? XML soubory v TEI? Variantní čtení? Obrazová data nebo metadatové vrstvy a komentáře editorů? A co když je interpretace součástí samotných dat?
Právě zde už pro svou univerzalitu přestávají stačit obecné repozitáře a začínají být důležité infrastruktury jako CLARIN nebo DARIAH.
CLARIN
Infrastruktura CLARIN je příkladem toho, jak může repozitář současně fungovat jako výzkumné prostředí. Nejde jen o ukládání jazykových dat, ale o celý ekosystém korpusů, lexikálních databází, nástrojů pro zpracování přirozeného jazyka (NLP), standardů interoperability, autentizační infrastruktury i metodologického know-how.
Humanitní data zde pak nejsou neutrálním objektem, ale výsledkem anotací a interpretací. Každý tag v korpusu vychází z jazykové teorie a metadata jsou tak samostatnou epistemologickou vrstvou namísto „technického doplňku“.
TEI a otázka interpretace
To, že se metadata stávají samostatnou vrstvou pro interpretaci světa, je dobře vidět na komunitě kolem Text Encoding Initiative. TEI vlastně není repozitářem v klasickém slova smyslu, ale standardem pro reprezentaci textů. I přesto kolem něj vznikl celý archivní a publikační ekosystém. Zakódovat text v TEI znamená rozhodnout, co je odstavec, oprava, autorský zásah, nejisté čtení nebo kde končí a začíná komentář. To vypovídá o tom, že humanitní data většinou nejsou „surová“. Jsou kurátorsky tvořená. Jak bylo již nastíněno, právě to je možná jedním z největších rozdílů oproti pojetí dat v některých přírodovědných a technických disciplínách.
Návodů na začátky s TEI existuje mnoho, pokud se ale chcete dozvědět více, doporučujeme navštívit například Introduction to Encoding Texts in TEI (Part 1) nebo A beginner’s guide to XML and TEI.
Ukázka TEI/XML zápisu v editoru Visual Studio Code: text je zde reprezentován jako strukturovaná vrstva významových značek. Zdroj: https://www.pmoran.ie/posts/guide-to-xml/
Digitální knihovny jako kulturní infrastruktury
Po boku výzkumných repozitářů existuje ještě svět digitálních knihoven a kulturních archivů. Mezi příklady patří platforma Europeana propojující miliony digitalizovaných objektů z evropských institucí. Francouzská digitální knihovna Gallica ukazuje, jak může státní knihovna dlouhodobě budovat digitální infrastrukturu. Specifickou oblast pak představují webové archivy, například český Webarchiv zaměřený na uchovávání domácího internetového prostoru a digitálně vznikající kultury.
Právě díky tomu, že jsou podobné infrastruktury vlastně modely kulturní paměti, stojíme pak před otázkami typu „Co se digitalizuje a co zůstane nedigitalizované?“ „Jaká metadata použijeme a s jakými standardy?“ „Jaké jazyky a regiony jsou reprezentovány?“ nebo „Co se stane s materiály po skončení financování?“.
Digital humanities tak mnohdy stojí na těchto neviditelných rozhodnutích.
Nejzajímavější jsou často malé specializované databáze
Možná největší kouzlo pak leží v malých oborových projektech vznikajících z konkrétní badatelské potřeby. Takové repozitáře nebo digitální archivy mnohdy experimentují s různými možnostmi modelování datových vazeb.
ORBIS například nepracuje s mapou v tradičním smyslu, ale s dynamickým modelem mobility v římském světě, kde je prostor chápán jako síť časových a logistických nákladů. Mapping Gothic France převádí architekturu do prostorové analytiky a zprostředkovává nám chápání gotických staveb jako soubory vztahů mezi místy, styly a historickým kontextem. V jiném režimu funguje třeba TalkBank ukládající mluvený jazyk jako interakční událost v čase, nikoli jen jako textový záznam. Dále například databáze Nomisma, která je katalogem mincí, ale zároveň se snaží utvářet model ekonomických, politických a symbolických vztahů ve starověku.
Tyto a mnoho dalších projektů v kontextu digitálních humanitních věd ukazují, že repozitáře mohou být vskutku experimentálním prostředím, v němž se testují způsoby, jak převádět kulturní realitu do strukturované a strojově čitelné podoby, a zároveň i to, co vlastně považujeme za poznatelný objekt.
Ukázka rozhraní databáze ORBIS. Zdroj: https://orbis.stanford.edu
Ukázka rozhraní databáze Mapping Gothic France. Zdroj: https://mcid.mcah.columbia.edu/mapping-gothic
Křehkost projektů
Nesmíme ale opomínat ani temnější stranu mince. Mnoho těchto projektů vzniká grantově, to je například tři roky financování, tým doktorandů, webová aplikace, databáze, publikace a potom? Ticho. Doména expiruje, API přestane fungovat, dokumentace zmizí a dataset zůstane bez údržby. Dochází tak k produkci nových digitálních ruin. Právě proto dnes stále narůstají na důležitosti dlouhodobé infrastruktury jako CLARIN, DARIAH nebo národní repozitářové sítě. Vedle uložení dat jde tedy i o kulturní kontinuitu.
Jak jsme v článku nastínili, repozitáře totiž mimo jiné uchovávají i způsoby, jak minulost interpretovat, propojovat a znovu číst, a možná právě v tom spočívá jejich největší význam. Stávají se mapami toho, jak současná kultura uvažuje nad vlastním dědictvím a jakým způsobem s ním nakládá.