Kulturní paměť ve věku datových infrastruktur

Když hovoříme o repozitářích pro ukládání datasetů produkovaných ve vědeckých výzkumech, obvykle narazíme na několik známých jmen: Zenodo, Open Science Framework nebo Figshare. Jsou důležité, robustní a v prostředí open science především téměř nevyhnutelné. Jenže (nejen) pro výzkum v humanitních vědách jsou spíše jeho začátkem než cílem.

27. 5. 2026 Natálie Čornyjová

V kontextu digital humanities totiž nechápeme data čistě jako technické objekty uložené v databázi, ale jako nosiče interpretace, kontextu a kulturní paměti. Datasety nesou informace rukopisů, textových fragmentů, anotací, map nebo jazykových vrstev, a právě to je důvodem, proč se kolem humanitních věd vytvořil zvláštní ekosystém repozitářů, archivů a infrastrukturních platforem, které fungují jinak, s oborově specifickými rozdíly, než je tomu zvykem třeba u repozitářů přírodovědných.

Od univerzálních repozitářů k oborovým ekosystémům 

Obecné repozitáře typu Zenodo mají jednu zásadní výhodu, kterou je stabilita. Přidělují DOI, dlouhodobě archivují a mají relativně jasná pravidla citování. Jsou tak ideální pro datasety, články, software nebo doprovodné materiály. Zkrátka vše, co může výzkum vyprodukovat. 

Jenže humanitní data bývají komplikovanější. Co například znamená dataset u kritické edice středověkého textu? Jde o přepisy? XML soubory v TEI? Variantní čtení? Obrazová data nebo metadatové vrstvy a komentáře editorů? A co když je interpretace součástí samotných dat? 

Právě zde už pro svou univerzalitu přestávají stačit obecné repozitáře a začínají být důležité infrastruktury jako CLARIN nebo DARIAH 

CLARIN 

Infrastruktura CLARIN je příkladem toho, jak může repozitář současně fungovat jako výzkumné prostředí. Nejde jen o ukládání jazykových dat, ale o celý ekosystém korpusů, lexikálních databází, nástrojů pro zpracování přirozeného jazyka (NLP), standardů interoperability, autentizační infrastruktury i metodologického know-how.  

Humanitní data zde pak nejsou neutrálním objektem, ale výsledkem anotací a interpretací. Každý tag v korpusu vychází z jazykové teorie a metadata jsou tak samostatnou epistemologickou vrstvou namísto „technického doplňku“. 

TEI a otázka interpretace 

To, že se metadata stávají samostatnou vrstvou pro interpretaci světa, je dobře vidět na komunitě kolem Text Encoding Initiative. TEI vlastně není repozitářem v klasickém slova smyslu, ale standardem pro reprezentaci textů. I přesto kolem něj vznikl celý archivní a publikační ekosystém. Zakódovat text v TEI znamená rozhodnout, co je odstavec, oprava, autorský zásah, nejisté čtení nebo kde končí a začíná komentář. To vypovídá o tom, že humanitní data většinou nejsou „surová“. Jsou kurátorsky tvořená. Jak bylo již nastíněno, právě to je možná jedním z největších rozdílů oproti pojetí dat v některých přírodovědných a technických disciplínách. 

Návodů na začátky s TEI existuje mnoho, pokud se ale chcete dozvědět více, doporučujeme navštívit například Introduction to Encoding Texts in TEI (Part 1) nebo A beginner’s guide to XML and TEI.

Ukázka TEI/XML zápisu v editoru Visual Studio Code: text je zde reprezentován jako strukturovaná vrstva významových značek. Zdroj: https://www.pmoran.ie/posts/guide-to-xml/

Digitální knihovny jako kulturní infrastruktury 

Po boku výzkumných repozitářů existuje ještě svět digitálních knihoven a kulturních archivů. Mezi příklady patří platforma Europeana propojující miliony digitalizovaných objektů z evropských institucí. Francouzská digitální knihovna Gallica ukazuje, jak může státní knihovna dlouhodobě budovat digitální infrastrukturu. Specifickou oblast pak představují webové archivy, například český Webarchiv zaměřený na uchovávání domácího internetového prostoru a digitálně vznikající kultury. 

Právě díky tomu, že jsou podobné infrastruktury vlastně modely kulturní paměti, stojíme pak před otázkami typu „Co se digitalizuje a co zůstane nedigitalizované?“ „Jaká metadata použijeme a s jakými standardy?“ „Jaké jazyky a regiony jsou reprezentovány?“ nebo „Co se stane s materiály po skončení financování?“. 

Digital humanities tak mnohdy stojí na těchto neviditelných rozhodnutích. 

Nejzajímavější jsou často malé specializované databáze 

Možná největší kouzlo pak leží v malých oborových projektech vznikajících z konkrétní badatelské potřeby. Takové repozitáře nebo digitální archivy mnohdy experimentují s různými možnostmi modelování datových vazeb. 

ORBIS například nepracuje s mapou v tradičním smyslu, ale s dynamickým modelem mobility v římském světě, kde je prostor chápán jako síť časových a logistických nákladů. Mapping Gothic France převádí architekturu do prostorové analytiky a zprostředkovává nám chápání gotických staveb jako soubory vztahů mezi místy, styly a historickým kontextem. V jiném režimu funguje třeba TalkBank ukládající mluvený jazyk jako interakční událost v čase, nikoli jen jako textový záznam. Dále například databáze Nomisma, která je katalogem mincí, ale zároveň se snaží utvářet model ekonomických, politických a symbolických vztahů ve starověku.  

Tyto a mnoho dalších projektů v kontextu digitálních humanitních věd ukazují, že repozitáře mohou být vskutku experimentálním prostředím, v němž se testují způsoby, jak převádět kulturní realitu do strukturované a strojově čitelné podoby, a zároveň i to, co vlastně považujeme za poznatelný objekt. 

Ukázka rozhraní databáze ORBIS. Zdroj: https://orbis.stanford.edu
Ukázka rozhraní databáze Mapping Gothic France. Zdroj: https://mcid.mcah.columbia.edu/mapping-gothic

Křehkost projektů 

Nesmíme ale opomínat ani temnější stranu mince. Mnoho těchto projektů vzniká grantově, to je například tři roky financování, tým doktorandů, webová aplikace, databáze, publikace a potom? Ticho. Doména expiruje, API přestane fungovat, dokumentace zmizí a dataset zůstane bez údržby. Dochází tak k produkci nových digitálních ruin. Právě proto dnes stále narůstají na důležitosti dlouhodobé infrastruktury jako CLARIN, DARIAH nebo národní repozitářové sítě. Vedle uložení dat jde tedy i o kulturní kontinuitu.  

Jak jsme v článku nastínili, repozitáře totiž mimo jiné uchovávají i způsoby, jak minulost interpretovat, propojovat a znovu číst, a možná právě v tom spočívá jejich největší význam. Stávají se mapami toho, jak současná kultura uvažuje nad vlastním dědictvím a jakým způsobem s ním nakládá. 


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info