Když veřejnost pomáhá vědě: o crowdsourcingu v digitalizaci

Digitalizace kulturního dědictví je jedním z procesů, který zásadně proměnil způsob, jakým pracujeme s historickými prameny. Miliony digitalizovaných dokumentů, obrazů či map jsou dnes dostupné online, avšak jejich skutečný potenciál zůstává často nevyužitý. Digitalizace totiž nekončí vytvořením digitální kopie, klíčové je mnohdy další zpracování dat, jako jsou přepisy nebo anotace. Právě v tomto bodě se do popředí dostává crowdsourcing, tedy zapojení veřejnosti do odborné praxe často spojované s tzv. citizen science“ (občanskou vědou). 

27. 3. 2026 Natálie Čornyjová

Crowdsourcing (v kontextu výzkumu) představuje přístup, při němž instituce své digitální sbírky otevírají veřejnosti a umožňují jí podílet se na jejich zpracování. Tento přístup vychází z předpokladu, že i neodborníci mohou (při vhodném vedení) přispět k řešení dílčích úkolů, které jsou pro jednotlivce časově náročné, ale pro kolektiv zvládnutelné. 

V oblasti digitálních humanitních věd zahrnují typické crowdsourcingové aktivity například transkripci rukopisů a tisků (často tam, kde selhává OCR), anotace a tagování obrazového materiálu nebo klasifikaci dat (např. rozpoznávání objektů na fotografiích). Zásadní přínos spočívá v tom, že lidská schopnost interpretace významů zůstává, i přes pokroky v oblasti AI, v mnoha případech nenahraditelná. 

Platformy a nástroje

Jedním z nejvýraznějších příkladů stavějících na crowdsourcingu je platforma Zooniverse, která patří mezi největší projekty citizen science. Sdružuje miliony dobrovolníků po celém světě a umožňuje výzkumníkům vytvářet projekty založené na participaci veřejnosti, a to tematicky z mnoha vědních oblastí, ať už jde o klasifikaci galaxií, nebo přepisy historických dokumentů. Výhodou platformy je zejména je velký dosah, již existujícíširoká komunita uživatelů a jejich snadné zapojení do projektů. 

V jednom z projektů na Zooniverse, Wild Mont-Blanc, se může veřejnost zapojit do určování zvířat na fotografiích z různých horských masivů: Mont Blanc, Bauges a Belledonne. Zdroj: https://www.zooniverse.org.

Na druhé straně stojí nástroje jako Omeka s crowdsourcingovými pluginy (např. Scripto), které umožňují institucím budovat vlastní participativní prostředí. Tento přístup je typický třeba pro knihovny a archivy, které chtějí crowdsourcing integrovat přímo do svých digitálních sbírek. Výsledkem je větší kontrola nad daty i zapojenou veřejností, ale zároveň vyšší nároky na technické zajištění a správu projektu. 

Další zajímavý model představuje platforma Transkribus, která kombinuje crowdsourcing s pokročilými nástroji pro rozpoznávání rukopisného textu (HTR). Uživatelé zde mohou přepisovat historické dokumenty a zároveň trénovat modely strojového učení. Tento přístup představuje posun od čistě manuální práce k využívání automatizovaných nástrojů, které celý proces doplňují a urychlují. Platformě Transkribus a tématům blízkým digitálnímu zpracování rukopisů jsme se mimo jiné věnovali v rozhovoru se Stanislavem Bártou. 

Podobně, avšak bez důrazu na automatizaci, funguje třeba platforma FromThePage, která se zaměřuje na přepis a anotaci historických dokumentů v prostředí blízkém práci badatelů. Projekty zde často organizují samotné kulturní instituce a kladou důraz na komunitní spolupráci, transparentnost a postupné zpřesňování dat. FromThePage je tak ilustrací tradičnějšího modelu crowdsourcingu ve výzkumu. 

Uživatelské rozhraní platformy FromThePage. Zdroj: https://fromthepage.com.

Úspěchy crowdsourcingových projektů však nezávisí ani tolik na technologii jako na lidech. Motivace veřejnosti k zapojení je většinou vnitřní: zájem o téma, radost z objevování a učení a pocit smysluplné participace. Některé platformy však tyto motivace dále podporují různými gamifikačními elementy (např. sbírání bodů nebo certifikátů). 

A co kvalita dat? 

Nejčastější námitkou vůči crowdsourcingu je otázka kvality: Lze důvěřovat datům vytvořeným neodborníky?

Empirické studie [1][2][3] však ukazují, že při vhodném nastavení může být kvalita veřejností zpracovaných dat velmi vysoká, někdy dokonce vyšší než u automatických metod, jako je OCR. Klíčové jsou zde různé kontrolní mechanismy: 

  • redundance – tentýž úkol řeší více uživatelů, výsledky se porovnávají, 
  • konsenzuální modely – finální výstup vzniká agregací odpovědí, 
  • expertní validace – odborníci kontrolují nebo schvalují výsledky, 
  • revizní systémy – historie úprav a možnost návratu k předchozím verzím. 

Princip tzv. „kolektivní moudrosti“ (wisdom of the crowd) zde funguje za předpokladu dostatečného počtu nezávislých příspěvků. Jinými slovy, jednotlivé chyby se v součtu vyrovnávají. 

V článku jsme si představili, že crowdsourcing není pouze efektivním nástrojem pro některé vědní projekty, ale i prostředkem, jak můžeme přemýšlet nad vztahem mezi institucemi a veřejností. Digitální (nejen) humanitní vědy tak získávají nové metody práce s daty i nový sociální rozměr. 

Literatura

[1] Suviranta, R., & Hiippala, T. (2025). Can digital humanities use microwork crowdsourcing in a fair manner? The effect of pedagogical training and multimodal instructions on annotation quality. Digital Scholarship in the Humanities, fqaf110. https://doi.org/10.1093/llc/fqaf110 

[2] Lind, F., Gruber, M., & Boomgaarden, H. G. (2017). Content Analysis by the Crowd: Assessing the Usability of Crowdsourcing for Coding Latent Constructs. Communication Methods and Measures, 11(3), 191–209. https://doi.org/10.1080/19312458.2017.1317338  

[3] Van Hyning, V. A., & Jones, M. A. (2021). Data's Destinations: Three Case Studies in Crowdsourced Transcription Data Management and Dissemination. Startwords, 2. https://doi.org/10.5281/zenodo.5750691 


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info