Úvod
Blíží se období nových grantových výzev a agentury reflektující principy otevřené a na data náročné vědy mění své požadavky, jak vyplňovat grantové žádosti. Pokud jste narazili na požadavek zpřístupnit svá výzkumná data a vypracovat plán správy dat (DMP – Data management plan, standardní požadavek programu Horizon Europe či agentur GAČR a TAČR), možná si i vy kladete některou z následujících otázek:
- Jaká data po mně chtějí, když nic neměřím ani nepočítám? Co myslí těmi daty?
- Musejí být všechna data počitatelná? Jak data souvisí s porozuměním a s interpretací?
- Jaký je charakter dat v humanitních oborech? Jsou jiná než data zpracovávaná v přírodních či počítačových vědách?
V následujícím příspěvku se pokusím stručně odpovědět na tyto otázky a přispět k porozumění požadavkům na zpřístupňování výzkumných dat. Nejprve se zaměřím na koncept dat, charakteristiku dat produkovaných humanitním výzkumem a v závěru se zamyslím nad potřebou a přínosem reflexe dat a datové vědy z perspektiv humanitních věd. V příspěvku se nebudu věnovat přípravě plánu správy dat, k této problematice najdou případní zájemci informace na stránkách výzkumné infrastruktury Digitalia MUNI ARTS (1).
Data
Data (z lat. „dané“ či „samozřejmé“) je překlad řeckého pojmu dedomena ze stejnojmenné Euklidovy knihy. Dle Euklida jsou data dané vlastnosti či veličiny, z nichž lze deduktivně vyvozovat nové vlastnosti. Jsou to axiomy předcházející poznání a interpretaci subjektu. Ontologicky je lze koncipovat jako diference ve struktuře reality, které stejně jako Kantovy noumena nejsou přístupny přímé zkušenosti, ale jsou ze zkušenosti odvozeny nepřímo. Tato interpretace se stává základem definice dat současného oxfordského filozofa informace Luciana Floridiho, který data koncipuje jako „chybějící uniformitu“ (2010, s. 23). Floridiho filozofická definice je ovšem příliš obecná, nespecifikuje povahu diference a její vztah k evidenci, a tak „za data můžeme považovat příliš mnoho věcí“ (Lyon, 2016, s. 743).
Ačkoli se v posledních letech stal koncept dat běžnou součástí vědeckého diskurzu, nebylo mu věnováno příliš mnoho studií. S rostoucím zájmem o jasnou definici dat se ukazuje, že jde o pojem poměrně komplikovaný. Nelze se proto divit, že v běžném vědeckém diskurzu je zatížený řadou zmatků a mýtů, mezi něž patří zaměňování dat za fakta či za dokumenty, představa, že data jsou přírodní místo kulturní povahy (tj. že existují objektivně, nezávisle na lidském subjektu), že data mohou existovat v nezpracované (tzv. surové) či nestrukturované podobě, že sama o sobě mají pravdivostní hodnotu a jsou nezávislá na znalostech a teoriích (2). V odborných zdrojích se často objevuje zmínka, že koncept dat není zvolen vhodně, přesnější by byl pojem capta, zdůrazňující, že proces zachycení dat je vždy aktivní, selektivní a zatížený teorií (Kitchin, 2014; Drucker, 2011). Data a jejich strukturované popisy – metadata – jsou svojí povahou relační. Co jsou pro jednoho metadata, může být pro jiného badatele s odlišnou výzkumnou otázkou daty, co je pro jednoho badatele šum, může být pro druhého zásadní evidencí (srovnej např. tiskové chyby v digitalizátech knih ze 16. století, komplikující analýzu jazyka, ale využitelné ve výzkumu vývoje knihtiskařské technologie) (Borgman, 2015, Flanders – Muñoz, 2012).
Jelikož cílem našeho příspěvku není pojem dat podrobně analyzovat, uvedu zde definici Maxe Kaase, která se zdařile vyhýbá konceptuálním obtížím: „Data jsou informace o vlastnostech jednotek analýzy“ (Kaase, 2001, s. 3251). Jednotkou analýzy samozřejmě nemusí být jen měřený číselný údaj. Jednotkami mohou stejně tak být slova textu, výpovědi diskurzu, tematiky literárních děl, vizuální prvky obrazů či budovy historického období. Vlastnostmi pak jsou v odpovídajícím pořadí například kolokace slov, prozódie výpovědí, motivy děl, kontrast obrazů či funkce budov ve zkoumaném období. Tyto údaje vědci systematicky shromažďují, protože reprezentují zkoumaný jev a jejich interpretace umožňuje lepší poznání zkoumaného fenoménu. Jelikož jednotky analýzy evokují měření a počítání, pro humanitní vědce může být bližší pojímat data jako reprezentace předmětu zkoumání. Takto pojímá data významný novomediální teoretik Lev Manovich a dodává, že mohou „zahrnovat čísla, kategorie, digitalizované texty, obrázky, zvuky a další typy médií, záznamy o lidských činnostech, polohu v prostoru a spojení mezi prvky (tj. síťové vztahy)“ (2019, s. 61). Při tvorbě reprezentace podle něj musíme vždy rozhodnout o hranicích zkoumaného jevu (co zahrneme, co vyloučíme a proč), o objektech, které budeme reprezentovat (tedy o jednotce analýzy, která je vhodná účelu našeho zkoumání) a jejích význačných rysech (tedy vlastnostech, které chceme pro náš účel sledovat). Naše reprezentace mohou být dále upraveny takovým způsobem, aby je mohl zpracovávat počítač. Počítač umožňuje nejen numerické zpracování naměřených hodnot, ale také symbolické manipulace, které mohou dobře posloužit i v humanitním bádání.
Reprezentace v podobě datových objektů poslouží nejen jejich tvůrci, ale mohou usnadnit výzkum i dalším vědcům. Protože zpracování a shromažďování údajů často probíhá za financování grantových agentur, tedy z peněz daňových poplatníků, je veřejným zájmem, aby byla data přístupná. Zpřístupněná data mohou být využita dalšími badateli, čímž se zvyšuje efektivita vynaložených prostředků. Tam kde je to vhodné a nejedná se o chráněné, citlivé údaje, jsou přístupná také široké veřejnosti.
Data v humanitních vědách
Ve srovnání s daty z jiných oblastí vědy mají data humanitních oborů řadu specifik:
Heterogenita dat – stejně jako je vysoká různorodost objektů kultury, je vysoká i diverzita humanitních dat. Humanitní vědy pracují s daty, která mohou být textová (literární díla, rukopisy), vizuální (obrazy, fotografie, mapy), zvuková (nahrávky hudby, mluveného slova), audiovizuální (filmy, videa), prostorová nebo materiální (artefakty, architektonické památky, lidské pozůstatky). Jednotlivé typy dat mají navíc řadu formátů, ve kterých mohou být data uložena.
Multimodálnost dat – údaje o zkoumaném fenoménu mohou být zachyceny různými způsoby a působit na různé smysly, často i synchronně, např. audiovizuální dokumenty. Multimodální data mohou vyžadovat interpretaci experty z různých oborů a v interdisciplinární spolupráci. Otevřeně sdílená data mohou být využita způsobem dalece přesahujícím představivost vědce, který je původně shromáždil.
Komplexnost dat – humanitní data nesou více vrstev významu, mohou být zkoumána z různých hledisek a jejich interpretace se může měnit v různých kontextech, např. v různých kulturách či v různých historických obdobích. Např. rukopis biblického textu není v moderní době jen teologickým pramenem, ale také objektem filologické, kodikologické, paleografické, uměnovědné či digitální analýzy. Narůstá počet vrstev, v nichž lze data zkoumat. Komplexitu dat zvyšuje i jejich heterogenita a multimodálnost.
Vlastnictví dat – výzkumná data v jiných vědních oblastech generují přímo sami vědci, stávají se proto vlastníky dat. V humanitních vědách je přímé generování dat vzácnější. Odborníci většinou pracují s reprezentacemi kulturních objektů, které náleží institucím starajícím se o jejich správu a uchování včetně digitalizace. Výzkumná data tvoří vědci interpretací těchto reprezentací – jejich kategorizací, tagováním, anotováním apod. Tento stav může omezovat využití digitálních metod.
Trevor Owens (2012) identifikuje čtyři přístupy k datům v humanitních vědách – s daty nakládáme jako s artefakty, u nichž badatel rozhoduje o tom, jaké objekty bude shromažďovat a jak je bude reprezentovat, s daty nakládáme jako s texty, které jsou předmětem interpretace stejně jako jejich textové předlohy, jako s informacemi, které jsou kvantitativně zpracovatelné počítačem, a jako s víceúčelovým objektem, jehož potencionální hodnota se odhaluje při jeho využití jako důkazního prostředku v argumentaci. Nejběžnějšími datovými objekty, s nimiž humanitní vědci pracují, jsou tagované a anotované texty, digitální vědecké edice včetně kritických vydání, textové korpusy, digitální objekty doplněné analýzou či poznámkami a pomocné zdroje, jako jsou např. digitální bibliografie (Flanders – Muñoz, 2012).
Data perspektivou humanitních věd
Řada humanitních badatelů může považovat nově předkládané požadavky na zveřejňování dat za vpád cizorodého elementu do badatelské praxe humanitních oborů. Tvorba reprezentací a organizování zachycené evidence za účelem argumentace samozřejmě není pro badatele ničím novým, někteří badatelé snad jen o těchto praktikách nebyli zvyklí uvažovat jako o práci s daty. Problémový status dat způsobuje jednak požadavek na formalizaci sběru, uložení, klasifikace a správy pořizované evidence v podobě dat a současně požadavek na transparentní sdílení dat s ostatními vědci a s širokou veřejností. Zájemci o problematiku najdou řadu existujících průzkumů a diskuzí (viz např. Ruediger – MacDougall, 2023; Borgman, 2015; Anderson – Blanke, 2012; Huvila, 2012). Pozornost si zaslouží potřebnost expertízy humanitních vědců a badatelů v oblasti datových studií a datových výzkumů. Přínosnost humanitních oborů lze sledovat ve třech oblastech. Data mohou být pro humanitní badatele předmětem zkoumání sama o sobě, mohou být zkoumána jako kulturní objekt nebo jako forma kultury přístupná interpretaci a kritice.
Data jako předmět výzkumu humanitních věd jsou zkoumána konceptuálně; zároveň se tematizuje jejich role v našem poznání. Konceptuální a filozofické analýzy probíhají v epistemologii (epistemology), ve studiích vědy a techniky (Science and Technology Studies, STS), ve filozofii informace a také v nově se formující filozofii dat (Furner, 2017). S daty spojované pojmy jako fenomény, evidence, fakta, reprezentace a argumentace jsou v humanitních vědách důvěrně známé, systematicky analyzované a kriticky reflektované.
Data jako objekt kultury jsou zkoumána z hlediska jejich role při utváření kulturních fenoménů v etických a společenských dimenzích. V etické rovině jde například o fenomén datové filantropie, etiku algoritmů či etiku datových praktik; v rovině sociální o fenomén datové kultury či datového otroctví. Současně se data stávají i předmětem humanitního bádání, například v rámci digitálních humanitních věd.
Data nevypovídají sama za sebe, ani nejsou neutrální. Jako produkt lidského poznání vznikají v kulturním a společenském kontextu, nesou v sobě implicitně předsudky a očekávání, jsou teoreticky zatížena. Právě zde se otevírá zásadní úkol pro humanitně vzdělané experty, jejichž zapojení umožňuje prostřednictvím fenomenologie dat a datové kritiky (data criticism) překročit rámec čistě technických a kvantitativních perspektiv práce s daty. Interpretace dat probíhá vždy v nějakém kontextu, v horizontu porozumění subjektu. Její nedílnou součástí je subjektivní prvek. Fenomenologie dat pomáhá identifikovat a popsat, jak různé formy dat ovlivňují pochopení a interpretaci dat (jako např. v případě vizualizace dat), jak jsou data vnímána a spojována s etickými hodnotami v různých doménách a komunitách, používána při snaze získat větší vliv či moc. Důležité je také upozorňovat na různá zjednodušení či na limity automatizace rozhodování (např. při automatické kategorizaci dat). Stejně významná jako fenomenologie dat je i datová kritika (Beaton, 2016). Ta umožňuje zasadit zpřístupňovaná data a související technické postupy do historického a kulturního kontextu, analyzovat motivy a efekty jejich zpřístupňování, odhalovat módní trendy, kulturní tradice a formy produkce poznání, stejně jako předsudky skryté v organizaci, klasifikaci a strukturaci dat. Současně poskytuje rámec pro interpretaci forem prezentace dat v kulturním kontextu či v komparativní perspektivě s jinými soubory dat a umožňuje identifikovat i nežádoucí sociální důsledky jejich zveřejnění, například koloniální či rasistické diskurzy jazykových modelů trénovaných na nevhodných datech.
Shrnutí
Data nemusejí mít výhradně numerickou podobu; mohou jimi být i různé reprezentace zkoumaného fenoménu, například ve formě kategorizací či modelů. Jejich digitální transformace (digitalizace) převádí tyto reprezentace do digitálního kódu, což umožňuje výpočetní operace nejen s čísly, ale také se symboly, a tím otevírá prostor pro využití digitálních výzkumných metod. Humanitní data jsou vysoce heterogenní, multimodální a komplexní, velká část těchto dat není v držení výzkumníků, jak je tomu v jiných oborech, ale patří paměťovým institucím, což ztěžuje datový a digitální výzkum. Při práci s daty je potřebná humanitní expertíza, která vedle technických a statistických kompetencí staví kompetence interpretativní, umožňující pomocí fenomenologie a kritiky zohlednit kontext, význam a společenský dopad dat.
Poznámky autora
(1): Soubor rozhodnutí, která je třeba učinit před vlastním vytvořením datové sady či databáze, najdete na stránce Sedmero prvotních úvah pro tvůrce platforem a Pět kroků k cíli. S tvorbou plánu managementu dat pomůže prezentace M. Růžičky pro humanitní badatele FF MU. Na konci stránky najdete také formulář s požadavkem institucionální podpory, pokud potřebujete při přípravě odbornou pomoc či konzultaci.
(2): Zájemce o tuto problematiku odkazuji na sborník prací Gitelman (2013) a článek o datech (Hjørland, 2018).
Literatura
Anderson, S.; Blanke, T. (2012). Taking the Long View: From e-Science Humanities to Humanities Digital Ecosystems. Historical Social Research, 37(3), 147–164. https://doi.org/10.12759/hsr.37.2012.3.147-164
Beaton, B. (2016). How to Respond to Data Science: Early Data Criticism by Lionel Trilling. Information & Culture, 51(3): 352–372. https://doi.org/10.7560/IC51303
Borgman, Ch. L. (2015). Big Data, Little Data, No Data: Scholarship in the Networked World. Cambridge, MA: MIT Press.
Clough, P. D.; Hill, T.; Paramita, M.; Goodale, P. (2017). Europeana: What Users Search For and Why. In: Tsakonas, G.; Kalliopi, S.; Inge, C. (Eds.). Research and Advanced Technology for Digital Libraries. TPDL 2017. Lecture Notes in Computer Science, vol 10450. Cham: Springer, 207–219. https://doi.org/10.1007/978-3-319-67008-9_17
Drucker, J. (2011). Humanities Approaches to Graphical Display. Digital Humanities Quarterly, 5(1).
Flanders, J.; Trevor, M. (2012). An Introduction to Humanities Data Curation. DH Curation Guide: a community resource guide to data curation in the digital humanities. Accessed July 2, 2024. https://archive.mith.umd.edu/dhcuration-guide/guide.dhcuration.org/index.html%3Fp=91.html
Floridi, L. (2010). Information: A Very Short Introduction. New York: Oxford Univerity Press.
Furner, J. (2017). Philosophy of Data: Why? Education for Information, 33(1): 55–70. https://doi.org/10.3233/EFI-170986
Gitelman, L. (Ed.) (2013). „Raw Data“ Is an Oxymoron. Cambridge: MIT Press.
Hjørland, B. (2018). Data (with big data and database semantics). Knowledge Organization, 45(8): 685-708.
Huvila, I. (2012). Information Services and Digital Literacy: In Search of the Boundaries of Knowing. Oxford: Chandos Publishing.
Kaase, M. (2001). Databases, Core: Political Science and Political Behavior. In Smelser, Neil J and Paul B. Baltes (Eds). International Encyclopedia of the Social and Behavioral Sciences. Amsterdam: Elsevier.
Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. London: SAGE.
Lyon, A. (2016). Data. In Humphreys, Paul (Ed.). The Oxford Handbook of Philosophy of Science. New York: Oxford University Press.
Manovich, L. (2019). Data: Representing Phenomena as Data. In Heike, Paul (Ed.). Critical Terms in Futures Studies. Palgrave.
Owens, T. (2012). Defining Data for Humanists: Text, Artifact, Information or Evidence? Journal of Digital Humanities, 1(1).
Posner, M. (2015). Humanities Data: A Necessary Contradiction – Miriam Posner’s Blog,” June 25, 2015. Accessed July 2, 2024. http://miriamposner.com/blog/humanities-data-a-necessarycontradiction/.
Ruediger, D.; MacDougall, R. (2023). Are the Humanities Ready for Data Sharing? Ithaka S+R. Accessed October 29, 2024. http://www.jstor.org/stable/resrep49500.
Schöch, Ch. (2013). Big? Smart? Clean? Messy? Data in the Humanities. Journal of Digital Humanities, 2(3).