Ve světě knihoven: Filip Jebavý o digitalizaci v Moravské zemské knihovně

Digitální technologie mění způsob, jakým knihovny získávají, spravují i zpřístupňují informace. Jak probíhá digitalizace dokumentů v druhé největší knihovně v České republice? I to se dozvíte v rozhovoru s vedoucím Odboru správy digitálních dokumentů Moravské zemské knihovny Mgr. Filipem Jebavým.

14. 11. 2024 Kateřina Hendrychová

Mohl byste nám představit Odbor správy digitálních dokumentů Moravské zemské knihovny? Co vše tento odbor zajišťuje?

Odbor správy digitálních dokumentů, častěji jen OSDD, má na starost – zjednodušeně řečeno – celou digitální část knihovny. Dělí se na dvě oddělení – Oddělení vývoje a kurátorství a Oddělení digitalizace. Jedná se o aktivity, které by běžně ani čtenář nečekal, že se v knihovně dělají. To je samozřejmě škoda, protože zde vznikají velmi přínosné věci, které posouvají služby knihoven a obecně knihovnictví dopředu. Teď nemluvím samozřejmě jen o Moravské zemské knihovně, ale celkově o knihovnách, které mají pro tyto činnosti zázemí.

Nejčastěji je však OSDD spojováno s digitální knihovnou, ale patří sem mimo jiné i digitalizace, digitální kurátorství či vývoj softwarových řešení na podporu těchto aktivit. A právě poslední zmiňované – vývoj – se v současnosti dostává do popředí, protože technologie jdou velmi rychle dopředu a nám to otevírá nové cesty, jak dokumenty zpracovávat, či jak uživatelům informace nabídnout. Jak se totiž ukazuje, způsob získávání informací a práce s nimi se razantně mění, a pokud my jako knihovna na tyto změny nebudeme reagovat, vzniká zde riziko, že se uživatelé začnou častěji obracet na zdroje informací, které jsou sice jednoduše dostupné, ale jen málokdy ověřené či pravdivé.

Stačí se podívat na poslední čtyři roky. Nejprve pandemie Covid-19, kdy byli lidé nuceni využívat téměř výhradně elektronické zdroje. Z pohledu digitálních knihoven to přineslo obrovské množství nových uživatelů, lidé se začali více seznamovat s nástroji typu fulltextového vyhledávání nebo obecně s možností práce s větším množství dokumentů z jednoho místa v relativně krátkém čase. Řekl bych, že toto byl první velký zlom, který ukázal, že zaprvé v digitální knihovně máme co zlepšovat, a za druhé že to vůbec má smysl. Poté přišel ChatGPT a boom velkých jazykových modelů. Jakým způsobem to ovlivnilo a stále ovlivňuje způsob práce s informacemi asi říkat nemusím. Nejprve tedy výrazně vzrostlo využívání digitálních zdrojů a poté se navíc výrazně změnil způsob práce s nimi.

Možná jsem teď trochu odběhl od tématu, ale toto jsou právě věci, které vytvarovaly OSDD do dnešní podoby a silně ovlivnily to, co zde děláme. Vývoj v oblasti strojového učení je dnes například nedílnou součástí naší práce, což byste za normálních okolností v knihovně hledali jen velmi těžko. Shrnout, co vše v OSDD zajišťujeme tedy není jednoduché. Na jedné straně stojí skenování, na druhé vědecká činnost, a o každém by se dalo říct mnoho věcí.

Jedna z hlavních činností OSDD je tedy digitalizace. Jak tento proces v Moravské zemské knihovně probíhá?

Je to relativně dlouhý proces, který začíná už při samotném výběru dokumentů. Jak jsem zmínil v předchozí otázce, pohled na digitální knihovnu se změnil, a to samozřejmě ovlivnilo i to, co vůbec v digitální knihovně je. Dnes tedy již nedigitalizujeme pouze za účelem ochrany fondu, ale čím dál více také z pohledu zpřístupnění relevantních dokumentů veřejnosti. To je však mnohem komplikovanější, jelikož musíme dbát na dodržování autorského zákona, a nelze tedy zveřejnit vše. Navíc to, jestli může být dokument zveřejněn, nelze zjistit pouze ze záznamu daného dokumentu. O každém zveřejnění musí tedy rozhodnout kurátor, který se na tuto činnost specializuje. Poté tu máme řadu projektů, které vyžadují digitalizaci specifických dokumentů, a samozřejmě požadavky čtenářů. Do digitalizace se tedy může dokument dostat z mnoha důvodů, ale snažíme se především najít rovnováhu mezi ochranou fondu, zpřístupněním a relevancí daného dokumentu.

Používáte při své práci nějaký speciální software?

Jelikož je naše digitalizační centrum relativně velké a dokumentů je mnoho, tak si výběr dokumentů ulehčujeme pomocí specializovaného softwaru VERA, který jsme vyvinuli právě za účelem správy dokumentů před digitalizací. Zde si proporční rozdělení různých typů dokumentů můžeme jednoduše nastavit podle potřeby, zároveň je vždy předem jasné, co a kdy do digitalizace půjde. S tím souvisí i další bod, tedy kontrola záznamu fyzického exempláře, která částečně probíhá také automaticky právě v systému VERA. Jsou věci, který samozřejmě strojově vyčíst nedokážeme, jako například chybějící strany. Kontrola fyzického stavu se tedy provádí zvlášť.

Když je vše v pořádku, přichází na řadu skenování dokumentu. Zde je nejprve potřeba rozhodnout, jaký skener je pro daný dokument nejvhodnější. Roli hraje například formát dokumentu anebo vazba. Co se týče nastavení samotného skeneru, tak zde většinou moc na výběr nemáme. Musíme se totiž řídit standardem Národní digitální knihovny, který nám udává například rozlišení DPI, barevnou hloubku anebo zvolený formát.

Po skenování přichází na řadu úprava surových skenů. Jedná se primárně o ořez či menší korekce typu narovnání stránky nebo odstranění šumu. Jakým způsobem bychom měli skeny ořezávat nám opět uvádí standard Národní digitální knihovny, ale v zásadě, pokud se nejedná o dokument s historickou hodnotou, tak se skeny ořezávají takzvaně dovnitř, tedy tak, aby nebylo vidět okolí stránky, ale pouze stránka samotná.

Poté přichází na řadu tvorba metadat. Rád říkám, že zde vzniká ta přidaná hodnota digitalizovaného dokumentu. V tomto kroku se musí zjednodušeně řečeno propojit všechny skeny do jednoho celku, a to jak fyzicky, tak právě pomocí metadat. Důležité je například správné očíslování skenů podle čísel ve fyzickém exempláři anebo popis jednotlivých stránek. Výsledkem je několik druhů metadatových formátů, které spolu s upravenými skeny tvoří výsledný digitalizát. Další procedury se týkají správy digitalizátu, jako je například archivace či zmiňované zpřístupnění.

Je to samozřejmě mnohem komplikovanější, než popisuji, a určitě jsem hodně věcí nezmínil, jako například registr digitalizace nebo OCR. Velkou roli zde má i technické zázemí, které bývá lidově řečeno kamenem úrazu mnoho institucí.

Skenery v Moravské zemské knihovně

Je způsob digitalizace v Moravské zemské knihovně něčím specifický oproti jiným knihovnám?

Pokud bych měl najít nějaké specifikum našeho způsobu digitalizace, tak kromě zmíněných softwarů, které využíváme a zároveň vyvíjíme, tak je to určitě spojená digitalizační linka s Národní knihovnou. Zjednodušeně řečeno, naše hlavní digitalizační linka je propojena s digitalizační linkou v Národní knihovně. Je to tedy v podstatě jedno velké digitalizační centrum rozdělené mezi Prahou a Brnem. Pracujeme zde ve stejných systémech, se stejnými daty a vše, co zdigitalizujeme zde v MZK, mají rovnou k dispozici i v Národní knihovně a naopak. Stejně tak sdílíme i archivační úložiště. Díky této spolupráci můžeme digitalizovat efektivněji a uživatelům nabízet větší množství zdigitalizovaných dokumentů. Vedle toho máme i vlastní digitalizační linku, kde však digitalizujeme především specifické typy dokumentů, jako například staré tisky a rukopisy.

 

Zmiňujete spojenou digitalizační linku s Národní knihovnou. Spolupracujete také s dalšími knihovnami a institucemi? Které to kromě Národní knihovny jsou?

Ano, největší podíl má samozřejmě Národní knihovna, se kterou máme tedy spojenou digitalizační linku. To je však případ velmi specifický. Standardně spolupracujeme s institucemi, které buď nemají své vlastní digitalizační centrum, anebo se jedná o specifický druh dokumentů, jako například mapová díla, která vyžadují velkoformátový skener. Zde bych mohl zmínit například Dům umění města Brna či Muzeum Blanenska. Zajímavou spolupráci jsme měli také například s Muzeem umění Olomouc. Od kolegů jsme dostali hotové skeny, ze kterých jsme museli udělat výsledný digitalizát a zveřejnit v digitální knihovně. Nemusí se tedy jednat vždy o celý proces, ale pouze o část. V některých případech je spolupráce založena pouze na předávání zkušeností či konzultaci ohledně technického zázemí. To je velmi časté například u zahraniční spolupráce.

Digitalizace přináší řadu výhod. Jsou zde i nějaká úskalí či negativní dopady?

Určitě. Tím hlavním je již zmíněné technické zázemí. Na první pohled se to možná nezdá, ale za celým procesem se skrývá velké množství výpočetní techniky, specializovaných úložišť, samotné skenery potřebují svou údržbu. To vše musí někdo spravovat. Opět se zde vracíme k činnostem, které by asi nikdo v knihovně standardně nehledal. Bohužel si to někdy neuvědomují ani samotné instituce. Známe několik případů, kde si v instituci pořídili specializovaný skener s vidinou digitalizace, ale již nemysleli na následné procesy po skenování a údržbu potřebných systémů. Do určité míry lze toto řešit outsourcingem, ale to je opět velmi nákladné a pro instituce typu knihovny z dlouhodobého hlediska většinou neudržitelné.

Poté zde máme problematiku kybernetické bezpečnosti. To si myslím, že nemusím popisovat nijak dopodrobna. Tak jako nám někdo může chtít odnést fyzickou knihu z knihovny, může stejně tak chtít stáhnout digitalizované dokumenty, ke kterým nemá přístup. V horším případě může dojít i k mířenému útoku přímo na infrastrukturu instituce, která může mít na digitalizaci likvidační efekt. Nemusíme ani chodit daleko, stačí se podívat na kybernetický útok na Národní knihovnu z roku 2021. S tím je tak trochu spojeno další úskalí, a to jsou autorská práva. Jedná se asi o největší nevýhodu digitálních dokumentů. Zpřístupnit toho lze opravdu jen minimální množství z pohledu relevantnosti dokumentů. Z tohoto důvodu nemůžeme digitalizaci brát jako nějakou náhradu fyzického fondu, protože k tomu opravdu relevantnímu se uživatel většinou mimo knihovnu nedostane.

Poslední, co bych zmínil jako potenciální úskalí, je poté důležitost dlouhodobé archivace. Digitalizace začala primárně jako způsob zachování kulturního dědictví a ochrana fondu. Pokud však nebudeme věnovat pozornost archivaci, pravidelně kontrolovat archivovaná data a starat se o údržbu těchto úložišť, může se nám stát, že veškerá snaha bude zbytečná. Je tedy nebezpečné si myslet, že zdigitalizováním ochrana fondu končí. Co se týče negativních dopadů, to je problematika, o které by se dalo určitě mnoho říct. Například jakým způsobem může ovlivnit myšlení člověka konzumace primárně digitalizovaného obsahu, kde si každé slovo, či větu může dohledat pouze pomocí klíčového slova, či zadání dotazu, a dokument nemusí prohledávat sám. Nebo nemusí hledat ani ten samotný dokument. Názorů je hodně a každý si určitě může udělat vlastní.

V digitální knihovně Moravské zemské knihovny najdeme kromě literatury také sbírky zvukových nahrávek. Ty jsou tedy volně dostupné k poslechu?

V současné době máme v digitální knihovně několik málo stovek zvukových dokumentů, a ještě menší počet je volně dostupných. Řekl bych, že v tuto chvíli se se zvukovými nahrávkami nacházíme spíše v testovacím režimu, a to jak z pohledu jejich zpřístupnění, tak z pohledu samotné digitalizace. Je to dáno tím, že pro digitalizaci těchto dokumentů nejsou dány jasné standardy, jak je tomu například u monografií. Abychom dosáhli dlouhodobé udržitelnosti a podpořili možnosti spolupráce, považujeme za prioritu nejprve stanovit centralizovaná pravidla a teprve poté se zaměřit na digitalizaci a zpřístupnění. Navíc pro volné zpřístupnění těchto dokumentů platí jiná pravidla, než je tomu u tiskovin.

Proces digitalizace je pak samozřejmě jiný než u tištěných dokumentů, ale se stejným cílem. Zásadní je tedy opět správný záznam a tvorba metadat. Navíc se zde propojují dva formáty – audio a sken bookletu či samotného CD nosiče. V současné době není proces pevně daný a víme, že se bude měnit.

 

Co Vás přivedlo k práci v oblasti správy digitálních dokumentů?

 

Popravdě si nemyslím, že bych někdy inklinoval výslovně ke správě digitálních dokumentů, spíše jsem vždy viděl velký potenciál v možnostech práce s nimi, ale to už není zas tak daleko. V posledních letech mého studia jsem se věnoval především umělým neuronovým sítím a jejich využití při zpracování obrazových dat, zároveň jsem sledoval vývoj jazykových modelů, tehdy ještě pro širokou veřejnost téměř neznámého GPT-2 a jeho testování na Wikipedii. Vnímal jsem to jako perspektivní problematiku, a to mě mimo jiné přivedlo i do Moravské zemské knihovny, kde jsem poznal podobně smýšlející kolegy. Bylo mi jasné, že informace nebo data a způsob, jak o nich přemýšlíme, se změní, a knihovny jsou stále jedním z nejdůležitějších zdrojů dat, který tu máme. Práce s daty v knihovně tedy pro mě byla jasnou volbou. Navíc to, co tu děláme, neděláme s vidinou zisku, ale protože to dává smysl. Nesnažíme se zbohatnout na vlně nových technologií, ale naopak se tyto technologie snažíme využít pro to, aby měl každý z nás co nejjednodušší přístup k relevantním a ověřeným informacím.

Bez popisku

Mgr. Filip Jebavý je vedoucí Odboru správy digitálních dokumentů Moravské zemské knihovny.

Mohlo by vás zajímat 


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info