Nástroje a metody pro čištění dat
Článek nabízí ucelený přehled hlavních technik a dostupných nástrojů, které se dnes používají při čištění a přípravě dat s ohledem na jejich velikost, technických dovedností uživatelů i potřeby projektu.
Výzkum listin Zikmunda Lucemburského, archivní teorie i digitální humanitní vědy (digital humanities) – to jsou hlavní oblasti, kterým se věnuje archivář a historik Stanislav Bárta. Jeho práce ukazuje, že propojení tradičních metod diplomatiky a příbuzných disciplín s digitálními nástroji otevírá nové možnosti pro historiografii i archivnictví. S. Bárta se podílí na nadnárodním projektu Regesta Imperii, připravuje edici regestů listin v němčině a zároveň sleduje aktuální trendy v digitálním archivnictví, od automatizovaného přepisu rukopisů až k využití umělé inteligence. Díky tomu se jeho badatelský profil pohybuje na pomezí středověkých studií a moderních technologií, což mu umožňuje hledat nové cesty, jak zpřístupňovat historické prameny i širší veřejnosti.
Můžete se krátce představit a přiblížit svůj badatelský profil?
Jsem součástí mezinárodního projektu Regesta Imperii, který se mimo jiné věnuje zpřístupňování listin Zikmunda Lucemburského. Na projektu pracuji přes deset let, připravuji regesty listin v němčině a nově také řeším grant GA ČR. Dlouhodobě se zaměřuji na pozdně středověkou diplomatiku a na archivní teorii, která dnes nevyhnutelně zahrnuje digitální archivnictví.
Vaše disertační práce se věnovala zástavním listinám. Jak jste se k tomuto tématu dostal?
Byla to náhoda. Na jedné z prvních schůzek projektu jsme narazili na podezřelou listinu. Vedoucí projektu Petr Elbel poznamenal, že by mohlo jít o falzum, a já jsem na tomto případu vystavěl celou disertaci. Ukázalo se totiž, že Zikmundovy zástavní listiny dosud nikdo systematicky neanalyzoval.
Jak taková analýza probíhala?
Musel jsem listiny dohledat, identifikovat, přepsat a porovnat jejich formuláře i znaky. Pro české příjemce se jich dochovalo přes 500, ale jen asi desetina v originále – zbytek známe díky stručným záznamům.
Takže jste tímto procesem dospěl i k určení onoho falzifikátu?
Ano, jednalo se o tradiční rozbor vnitřních a vnějších znaků. Listina byla podezřelá už způsobem, jakým bylo napsáno Zikmundovo jméno, písmem i pergamenem. Navíc šlo o zástavní listinu na církevní statky, které Zikmund podle práva do té doby zastavovat nemohl. Vydaná měla být ve dvacátých letech 15. století, kdy na tento typ listin používal uherskou pečeť, ale tato byla opatřena pečetí říšskou. To samo o sobě poukazovalo na její problematičnost.
Co vám tato témata ze zpětného pohledu dala a jak ovlivnila vaše současné badatelské směřování?
Díky práci na zástavních listinách jsem se dostal hlouběji do problematiky vlády Zikmunda Lucemburského. S kolegy jsme postupně zpracovali všechny jeho listiny uložené v českých archivech. Dnes se každý z nás věnuje jiným regionům – část týmu se zaměřuje na Mnichov, další na Polsko či Itálii. Mně připadl Norimberk, kterému se věnuji od roku 2019. Právě na norimberských listinách stojí i náš nejnovější grant.
Na čem pracujete nyní? Kam směřuje váš výzkum?
Soustředím se tedy právě na analýzu listin pro říšské město Norimberk, jedno z nejvýznamnějších center Zikmundovy říše. Vedle množství privilegií se zde dochovaly i tzv. knihy misivů, tedy radní korespondence. Zkoumáme, jak město komunikovalo s panovníkem.
Soubor je natolik rozsáhlý, že tradiční metody nestačí. Proto využíváme přístupy digitálních humanitních věd s vizí, že je půjde aplikovat i na další Zikmundovy listiny v jiných archivech. V Zikmundově případě se celkově se jedná o desítky tisíc dokumentů – v nejstarší edici jich je zachyceno přes 12 000. Takový objem už jeden badatel nezvládne, proto je digitální zpracování nezbytné.
Můžete uvést konkrétní příklady metod digitálních humanitních věd, které využíváte?
Na začátku jsme se rozhodli jít dvěma směry. Prvním je automatizovaný přepis textu pomocí technologií HTR (Handwritten Text Recognition). V tomto ohledu spolupracujeme s grantem ERC „From Digital to Distant Diplomatics“ (DiDip), který vede profesor Georg Vogeler na univerzitě ve Štýrském Hradci (Graz). V rámci tohoto projektu vznikl nástroj Transkribus, jenž umožňuje automatické rozpoznávání rukopisných textů.
Často se říká, že středověké rukopisy jsou tvrdým oříškem. V našem případě to ale není tak složité – kolega Tobias Heil si ze zimní školy ve Vídni přivezl dobře natrénovaný jazykový model pro německojazyčné texty druhé poloviny 15. století. Ten dále trénoval na Zikmundových listinách. Protože jde o kancelářskou produkci, jsou texty poměrně dobře čitelné. Model se po prvním trénování dostal na chybovost kolem 3 %, což je mimořádně dobrý výsledek. Díky tomu získáváme textová data velmi rychle.
Druhým směrem je automatizovaná analýza. Teoreticky bychom byli schopni listiny vzhledem k jejich množství analyzovat i tradičními metodami, ale rozhodli jsme se využít tuto příležitost k trénování sofistikovaného vyhledávání. Naším cílem je vytvořit dobře zpracovaný korpus, který bude k dispozici dalším badatelům.
Problémem je, že podobné analýzy narážejí na nedostatek srovnávacích dat. Mnozí badatelé přípravu dat vzdávají právě proto, že nemají s čím porovnávat. Pokud bychom tento přístup opakovali stále dokola, nikam bychom se neposunuli. Proto se snažíme vytvořit základní korpus, který umožní další výzkum a otevře cestu k novým metodám v diplomatice i archivnictví.
Je vašemu bádání blízká i síťová analýza?
Ano, zkoušeli jsme ji využít třeba v projektu zaměřeném na Zikmundovu stranu v husitských Čechách. Ukázalo se však, že práce se středověkými daty naráží na limity – zmínky o osobách bývají ojedinělé a nahodilé, což komplikuje jejich sběr i čištění. Nakonec jsme se přiklonili k tradičnějšímu přístupu: identifikovali jsme Zikmundovy straníky a připravili jejich biogramy.
Spolupracovali jsme s Centrem medievistických studií Filosofického ústavu AV ČR v Praze, které začalo budovat online databázi listin husitské doby. Digitální edice se od tradiční liší – místo fixního textu umožňuje zpřístupnit různé vrstvy dokumentu a data průběžně aktualizovat. Otevírá tak cestu k dynamickým edicím využitelným i pro další výzkum.
Jak podle vás právě síťová analýza a další metody digitálních humanitních věd doplňují tradiční historiografii?
Při práci na Zikmundových listinách v Norimberku jsme vedli debaty, co nám digitální nástroje skutečně přinesou. Řadu otázek lze řešit tradičně, klíčové je proto hledat, kdy má užití digitální metody smysl a přidanou hodnotu.
Síťová analýza může odhalit souvislosti, které by badateli jinak unikly. Někdy přinese nečekané výsledky, které lze zpětně interpretovat.
Druhou rovinu představuje práce s rozsáhlými datovými soubory. V minulosti jsme měli projekt komunitní genealogické databáze, založený na přepisu matrik uživateli. Tehdy to dávalo smysl, dnes bychom využili automatické rejstříkování či rozpoznávání textu a zkrátka k němu přistoupili poněkud odlišnou cestou.
Vždy jde o balanc mezi množstvím a čistotou dat. Zapojení laických uživatelů přinese velký objem informací, ale ne vždy v perfektní kvalitě. Projekty se navíc vyvíjejí – s novými nástroji se původní přístupy často překonávají.
V posledních letech jste se podílel jak na formulaci Vizí českého archivnictví, tak na přípravě publikace Digitální archivnictví. Jak se tyto dva projekty liší a jaké trendy podle vás určují budoucnost oboru?
Vize českého archivnictví vznikly jako ideový text, který otevřel debatu o roli archivu ve společnosti. Na něj navázala rozsáhlá analýza současného stavu – jedno z největších dotazníkových šetření v českém archivnictví. Výsledky přinesly doporučení, diskusi o nové legislativě i přípravě koncepce rozvoje oboru na deset let dopředu.
Naopak publikace Digitální archivnictví byla odborným textem pro univerzitní kurz. Archivnictví je tradičně spjato s pomocnými vědami historickými, a proto se výuka dlouho soustředila na historickou část. My jsme se rozhodli posílit segment digitálního archivnictví a informačních technologií, ale narazili jsme na nedostatek literatury. Proto jsme připravili publikaci, která tuto mezeru zaplnila.
Moje role zde byla především redakční – koordinoval jsem tým a sestavil slovník základních pojmů. Dnes už jsou tyto termíny obecně známé, proto pracujeme na reedici textu, která zohlední legislativní změny i aktuální témata, například využití umělé inteligence v archivech.
Publikace se věnovala několika klíčovým segmentům:
Tyto oblasti ukazují, že digitální archivnictví je jedním z nejsilnějších trendů současnosti. Budoucnost oboru bude určovat schopnost propojit tradiční praxi s novými technologiemi a otevřít archivy společnosti v digitálním prostředí.
Na Masarykově univerzitě vedete CORE kurz Archivy jako mezioborové databanky pro 21. století. Jak jej přibližujete studentům z jiných oborů?
Kurz ukazuje archiv především z pohledu uživatele. Každý obor v něm může najít vlastní zdroj informací, přičemž velká část archiválií je stále analogová a vyžaduje specifické strategie vyhledávání. Studenti se seznamují s archivní sítí, učí se různé způsoby hledání a poznávají tematické okruhy – od vědy a techniky po krajinu či osobní data. Externě se podílí i odborník z Národního archivu, který přibližuje archivaci vědeckých dat a správu vlastních výzkumných materiálů.
Jaké překážky a rizika čekají české archivnictví?
Největší slabinou je roztříštěnost digitalizačních projektů veřejných archivů, které si v minulosti vytvářely vlastní digitální strategie. Národní archiv se nyní snaží tento stav sjednotit prostřednictvím Národního archivního portálu.
Vedle toho se objevují nové výzvy. Inspirací je projekt Národního archivu, který testoval zpracování zvukového archivu českého vysílání BBC pomocí nástrojů na strojový přepis mluveného slova – samotný poslech zvukového archivu by totiž trval odhadem přes 300 dní. Umělá inteligence tak otevírá cestu k efektivnímu zpřístupnění dat.
Další výzvou je práce s analogovými dokumenty, kde ne vždy má smysl digitalizace, a také výběr z obrovského množství dokumentů primárně vzniklých v digitální podobě (digital-born). Masová produkce vyžaduje nasazení AI nástrojů, které pomohou provést předvýběr a rozhodnout, co má být uchováno.
Jak vnímáte roli technologií v historickém výzkumu?
V archivní praxi představují technologie obrovský potenciál podobně jako stroje v 19. století mění pracovní role. Mohou posunout obor dál a zviditelnit jej ve společnosti. V českých archivech není zpracována ani polovina archiválií, a právě technologie otevírají cestu, jak ukázat jejich bohatství.
V historickém výzkumu je využití složitější. Technologie jsou dvojsečné – je nutné vědět, proč je používáme. Mají smysl tam, kde lidský přístup nestačí, například v moderních dějinách s nepřeberným množstvím materiálu. Velký potenciál mají kontextové analýzy, třeba při prohledávání starých novin, kde uživatel formuluje otázku a nástroj mu nabídne odpovídající výsledky.
Čemu se chystáte věnovat v blízké budoucnosti?
Hlavním projektem je zmiňovaný grant GA ČR, zaměřený na listiny Zikmunda Lucemburského v Norimberku, který potrvá ještě dva roky.
Největší výzvou je najít vhodné metody pro zpracování. Na letní škole pomocných věd historických jsme s kolegy ze Štýrského Hradce diskutovali, jak využít nové postupy při zpracování regestů listin Zikmunda Lucemburského. Vedle analýzy norimberských privilegií chceme testovat metody, které by se daly aplikovat na jeho listiny v celé Evropě.
Potenciál je obrovský – Zikmundových listin jsou tisíce. I kdyby na projektu pracovalo osm badatelů, práce by jim vydržela na celý život. Proto hledáme způsoby, jak ji zvládnout rychleji a efektivněji, a právě technologie mohou být klíčem.
Mgr. Stanislav Bárta, Ph.D působí na FF MU jako odborný asistent a zástupce ředitele Ústavu pomocných věd historických a archivnictví. V roce 2015 zde získal doktorát obhájením disertační práce Zástavní listiny Zikmunda Lucemburského na církevní statky (1420–1437), jež o rok později vyšla i knižně.
Současně působí v brněnském Divadelním studiu V, kde zastává role režiséra, herce, technika a správce sociálních sítí.
Článek nabízí ucelený přehled hlavních technik a dostupných nástrojů, které se dnes používají při čištění a přípravě dat s ohledem na jejich velikost, technických dovedností uživatelů i potřeby projektu.
Otevřená věda klade důraz na zpřístupňování výzkumných dat i v humanitních oborech. Co ale v tomto kontextu data znamenají? A proč nejsou neutrální? Přečtěte si článek, který přibližuje filozofické i praktické aspekty pojmu data v humanitních vědách a poukazuje na význam humanitní perspektivy pro porozumění datové kultuře.