Čištění dat jako základní předpoklad pro kvalitní datovou analýzu

V prostředí, které je stále více postaveno na datech a jejich analytickém využití, nabývá otázka jejich kvality na zásadním významu. Ačkoliv se v odborné i praktické literatuře často klade důraz na modelování, vizualizaci a interpretaci dat, je to právě fáze jejich čištění, označována též jako data cleaning, která tvoří jeden z nejdůležitějších a zároveň nejopomíjenějších kroků celého procesu.

2. 9. 2025 Natálie Čornyjová

Čištění dat lze obecně definovat jako soubor postupů, jejichž cílem je identifikace a náprava chyb, nekompletních záznamů, odlehlých hodnot, duplicit, nekonzistentních formátů a dalších jevů, které narušují integritu datové sady. Cílem těchto úprav je dosáhnout takového stavu, v němž jsou data nejen statisticky konzistentní, ale také vhodná pro spolehlivé a replikovatelné zpracování. 

Důležitost této fáze je v teoretické rovině často podceňována. Empirické studie i zkušenosti z praxe však ukazují, že v mnoha projektech zabírá čištění dat převážnou část času. Článek New York Times například uvádí, že datoví vědci tráví 50 % až 80 % svého pracovního času čištěním a organizováním dat, takže jim zbývá jen málo času na jejich skutečnou analýzu. Tento nepoměr není známkou neefektivity, ale důkazem náročnosti práce s reálnými, často neúplnými či nesourodými daty.  

Typologie problémů, na které můžeme při čištění dat narazit, je pestrá a v mnoha ohledech doménově závislá. Mezi nejčastější patří chybějící hodnoty, jejichž výskyt může být náhodný (např. omylem vynechaný údaj) či systematický (např. chybějící údaje u specifické podskupiny respondentů). Další problematickou kategorií jsou duplicity, tedy vícenásobné záznamy jedné entity, často vzniklé sloučením více zdrojů dat bez předchozího deduplikačního mechanismu. Dále můžeme narazit na odlehlé hodnoty, které mohou být výsledkem chybného zadání (např. překlepu) nebo skutečně reflektovat extrémní případ, a jejichž identifikace i interpretace vyžaduje analytický úsudek. Nelze opominout nesjednocené formáty, například u datových typů jako datum, měna či jazyková lokalizace, a zjevné překlepy a nesmyslné hodnoty, jako jsou věk 800 let, město „asdf“ nebo kategorie „jiné“ používaná zcela nekonzistentně.  

Pro data zatížená těmito problémy existuje termín „rogue data“, můžeme o nich hovořit jako o „špinavých“ datech. Ta jsou mnohdy nepřítelem číslo jedna každého datového vědce, protože snižují jejich celkovou čitelnost a příležitost pro interpretaci. Jinak tomu není například ani u strojového učení, kde se „špinavá“ data mohou projevit dvakrát, a to jak v historických datech použitých k trénování predikčního modelu, tak v nových datech, která tento model používá k budoucím rozhodnutím. 

Čištění dat obvykle probíhá v několika krocích. Nejprve je potřeba udělat průzkumnou analýzu dat (exploratory data analysis, EDA), která pomáhá odhalit chyby, neobvyklé vzory a problémy v datech. K tomu se často používají grafy a základní statistiky. Pak přichází na řadu identifikace problémových záznamů a rozhodnutí, jak je opravit – například doplněním chybějících hodnot, odstraněním nebo úpravou dat. Po opravách je důležité zkontrolovat, že změny skutečně zlepšily kvalitu dat a nezpůsobily další chyby. Nakonec je dobré celý proces pečlivě zaznamenat, což je mimořádně důležité v akademickém nebo auditním kontextu. 

Abychom celý proces zasadili do konkrétních situací, uveďme si dvě případové ilustrace:

Chybějící hodnoty kódované jako 99

Originální data. Zdroj: CHAI, Christine P., 2020. The Importance of Data Cleaning: Three Visualization Examples. CHANCE, 33(1), 4–9.

Při zkoumání vztahu mezi lety vzdělání a ročním příjmem byla regresní přímka zkreslena extrémní hodnotou 99, která ve skutečnosti označuje chybějící data, což může být běžně způsobeno kódováním statistického softwaru. Tento kód narušil model a znemožnil detailní analýzu v rozsahu 0–20 let vzdělání, protože jsou vtěsnány do levé části osy X. Po odstranění těchto záznamů regresní model lépe vystihuje pozitivní souvislost mezi vzděláním a příjmem. 

Po vyčištění dat. Zdroj: CHAI, Christine P., 2020.

Neplatná data v záznamech

Histogram roku narození nezpracovaných záznamů RLdata10000. Zdroj: CHAI, Christine P., 2020.

V datech se kromě chybných čísel často vyskytují i neplatné hodnoty, například nesmyslná data narození, která lze odhalit pomocí kontroly rozsahu. V datové sadě RLdata10000 se objevují neplatné roky, jako například 9185, které výrazně zkreslují vizualizaci, a je nutné je opravit. Oprava se provádí porovnáním duplicitních záznamů stejné osoby – pokud jeden záznam obsahuje platné datum narození, použije se k nápravě druhého. Platné hodnoty jsou označeny a opravené záznamy se evidují pro další zpracování. Některé chyby, například překlepy ve jménech, se však obtížněji detekují a vyžadují porovnání s externími zdroji, například slovníkem jmen. 

Histogram roku narození záznamů RLdata10000 po deduplikaci. Zdroj: CHAI, Christine P., 2020.

Z praktické perspektivy bývá čištění dat často provázeno dilematy. Jak například rozhodnout, zda chybějící hodnoty nahradit (a pokud ano, čím), nebo zda daný záznam zcela odstranit? Jak citlivě nastavit detekci odlehlých hodnot, aby nebyly eliminovány legitimní případy? A jak zajistit, aby byl celý proces opakovatelný a srozumitelný i pro jiné členy výzkumného či pracovního týmu? Na tyto otázky neexistuje univerzální odpověď – vždy záleží na povaze dat, cíli analýzy a dostupných prostředcích.  

Je žádoucí, abychom čištění dat chápali jako nedílné součásti výzkumné a analytické etiky. Pouze při práci s kvalitními, srozumitelnými a validovanými daty lze vytvářet důvěryhodné poznatky a rozhodnutí. V návaznosti na tento text se v samostatném článku zaměříme na přehled nástrojů a metod, které čištění dat podporují – ať už půjde o klasické skriptovací jazyky, platformy pro datové workflow, nebo o nové možnosti, které přinášejí jazykové modely a umělá inteligence.

A kde si data vyčistíte, nebo se dozvíte více?

E-learningový kurz Datová gramotnost

Tento kurz otevřený i úplným začátečníkům vás provede celým procesem práce s daty: naučíte se klást si nad nimi ty správné otázky, budete vyhledávat otevřená a volně dostupná data, kriticky je hodnotit, zkoumat, čistit a analyzovat, abyste na závěr mohli vytvořit vizualizaci a formulovat vlastní závěry – to vše za využití základních nástrojů, jako je Excel nebo Open Refine.

ISKB83 Digitální humanitní vědy

Kurz se věnuje tomu, jak digitální technologie změnily vědecké postupy v různých humanitních oborech. Na každé přednášce si poslechnete odborníky, kteří pracují s různými typy vědeckých dat v humanitní sféře. Ti vám představí, jaké digitální nástroje používají ve své praxi pro datové zpracovávání.

Kurz celoživotního vzdělávání Práce s daty: Jak porozumět světu dat a být strůjcem pokroku

Tento kurz celoživotního vzdělávání vám pomůže porozumět světu dat. Po absolvování budete schopni je efektivně vyhledávat, sbírat, analyzovat, objevovat v nich zajímavé trendy, proměňovat je na informace a ty pak v konkrétní znalosti.

CORE147 Digitální data v humanitních a sociálních vědách

Cílem předmětu je uvést studující do světa sociálních a humanitních věd (social sciences and humanities, SSH) očima datového vědce.

Literatura

CHAI, Christine P., 2020. The Importance of Data Cleaning: Three Visualization Examples. CHANCE, 33(1), 4–9. Dostupné z: https://doi.org/10.1080/09332480.2020.1726112 

GEMIGNANI, Zach; GEMIGNANI, Chris; GALENTINO, Richard a SCHUERMANN, Patrick Jude, 2015. Efektivní analýza a využití dat. Přeložil Jiří HUF. Brno: Computer Press. ISBN 978-80-251-4571-5. 

OSBORNE, Jason W., 2012. Best Practices in Data Cleaning: A Complete Guide to Everything You Need to Do Before and After Collecting Your Data. United States: SAGE Publications. ISBN 978-1-4522-8104-9. 


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info