Nástroje a metody pro čištění dat
Článek nabízí ucelený přehled hlavních technik a dostupných nástrojů, které se dnes používají při čištění a přípravě dat s ohledem na jejich velikost, technických dovedností uživatelů i potřeby projektu.
Důležitou součástí analýzy sítě je její vizualizace pomocí vhodného softwaru – ten nám poskytne ucelený pohled na kompletní strukturu a dokáže vypočítat data týkající se uzlů i celé sítě. Pro síťovou analýzu dnes existuje celá řada takových nástrojů. Některé z nich jsou jednodušší a uživatelsky přívětivější, většinou však mají omezené možnosti zobrazení dat a méně funkcí. Jiné programy nabízejí větší možnosti různých zobrazení a také přístup k dalším analytickým metodám. Přečtěte si, jaké funkce nabízejí nástroje Gephi, NodeXL, Pajeck, Cytoscape a SocNetV.
Jedním z nejrozšířenějších programů na tvorbu a zkoumání sítí je open-source program Gephi. Je napsaný v programovacích jazyce Java a poprvé byl spuštěn v roce 2008. K dispozici je v mnoha jazycích včetně češtiny. Dostupný je pro operační systémy Windows, macOS a Linux.
Gephi poskytuje celou řadu funkcí, jako je například shlukování, filtrování a uspořádání, které může uživatel aplikovat buď ručně nebo automaticky na základě určitých kritérií. Nástroj je schopný pojmout i síť čítající až sto tisíc uzlů. Nabízí několik metod zobrazení, k tomu také vývoj sítě v čase. Ukazuje i řadu základních metrik, jako jsou některé druhy centralit a podobně. Gephi je poměrně komplexní program, který není pro nové uživatele úplně jednoduchý. Na oficiálních stránkách najdete množství kvalitně zpracovaných návodů, které ukazují, jak program efektivně využívat. V praxi se Gephi uplatňuje v sociologii, především při výzkumu nových médií, v oblasti genetiky a biochemie nebo přírodních věd.
NodeXL je volně dostupný pod GPL licencí. Funguje jako šablona v Excelu, takže není potřeba ovládat programování. Software si jen stáhnete, přidáte jako záložku do Excelu a můžete ihned začít vytvářet analýzu. Nástroj obsahuje řadu funkcí pro analýzu a vizualizaci sítí. Jeho velkou výhodou je uživatelská přívětivost. NodeXL má poměrně intuitivní rozhraní, které umožňuje snadné sbírání, analýzu a vizualizaci dat.
Sofware umožňuje import dat z různých zdrojů, verze zdarma je ale omezená a nepodporuje import všech formátů, program ani nenabízí možnost vygenerování náhodné sítě. V placené verzi lze importovat data z více zdrojů, včetně sociálních médií (Twitter, Facebook), e-mailových komunikací, webových stránek a dalších datových sad. Nástroj poskytuje různé analytické funkce, jako je identifikace klíčových uzlů, měření centrálnosti, detekce komunit a analýza vzorců interakcí. Pokud chcete přístup k pokročilejším funkcím, budete muset sáhnout po placené verzi programu.
Pajek je bezplatný a otevřený software pro analýzu a vizualizaci sítí napsaný v programovacím jazyce Java. Svým uživatelům nabízí nespočet analytických funkcí, dokáže pracovat s množstvím metrik, jako je počítání různých druhů centralit, hledání cest, komunit a podobně. Podle oficiálních stránek zvládne verze PajekXXL (potažmo i Pajek3XL) pracovat s obrovskými sítěmi v řádech stamilionu uzlů. Výraz „Pajek“ ve slovinštině znamená „pavouk“, což odráží schopnost softwaru „splétat“ složité sítě. Vývoj programu začal již v roce 1996 na univerzitě v Lublani, kde na něm pracoval Andrej Mrvar společně se svým školitelem Vladimirem Batageljem. V roce 2013 získal Cenu Williama D. Richardse ml. za software.
Cytoscape je otevřený software určený pro vizualizaci a analýzu komplexních sítí. Na oficiálním webu najdete přehledné návody, nástroj sám o sobě nabízí poměrně jednoduché a příjemné rozhraní. Na webu rovněž najdete velké množství pluginů, které program dále rozšiřují – pluginy přidávají například nové vizualizační techniky nebo nové algoritmy pro analýzu sítí. Původně byl vyvinut pro vizualizaci molekulárních interakcí a biologických sítí, poradí si ale také se sociálními sítěmi. Cytoscape poskytuje analytické nástroje pro zjišťování vlastností sítí, jako jsou centrality, detekce komunit, analýza cest a mnoho dalších. Software podporuje různé formáty souborů pro import a export sítí, včetně standardních formátů jako SIF, GraphML a Excel.
SocNetV (Social Network Visualizer) je otevřený program, který ze všech uvedených programů nabízí pravděpodobně nejjednodušší a nejintuitivnější rozhraní. Funkce jsou navíc zaměřeny přímo na analýzu sociálních sítí. Program nabízí měření všech základních metrik a poskytuje širokou škálu analytických nástrojů pro výpočet vlastností sítí.
Článek nabízí ucelený přehled hlavních technik a dostupných nástrojů, které se dnes používají při čištění a přípravě dat s ohledem na jejich velikost, technických dovedností uživatelů i potřeby projektu.
Otevřená věda klade důraz na zpřístupňování výzkumných dat i v humanitních oborech. Co ale v tomto kontextu data znamenají? A proč nejsou neutrální? Přečtěte si článek, který přibližuje filozofické i praktické aspekty pojmu data v humanitních vědách a poukazuje na význam humanitní perspektivy pro porozumění datové kultuře.