Dark data jsou data , která jsou automaticky sbírána při rutinních činnostech v počítačových sítích, ale nejsou nijak využívána k získávání informací nebo rozhodování [1] [2] . Schopnost organizace shromažďovat data může překročit propustnost, se kterou může data analyzovat . V některých případech si organizace ani nemusí být vědoma, že se data shromažďují [3] . IBM odhaduje , že zhruba 90 procent dat generovaných senzory a A/D převodníky není nikdy použito [4] .
V průmyslovém kontextu mohou temná data zahrnovat informace shromážděné senzory a telematikou [5] .
Organizace ukládají skrytá data z různých důvodů a odhaduje se, že většina společností analyzuje pouze 1 % svých dat [6] . Důvody pro ukládání nevyužitých dat mohou zahrnovat dodržování předpisů [7] a archivy [1] . Některé organizace se domnívají, že skrytá data pro ně mohou být užitečná v budoucnu, až budou k dispozici pokročilejší analytické a business intelligence technologie [3] . Protože úložiště je levné, ukládání dat je snadné. Ukládání a ochrana dat však obvykle přináší vyšší náklady než potenciální zisk.
Profesor David Hand z Imperial College London používá termín „tmavá data“ k označení chybějících dat: „tmavá data jsou data, která nemáte“ [8] [a] .
Mnoho tmavých dat je nestrukturovaných, což znamená, že informace jsou prezentovány ve formátech, které může být obtížné kategorizovat, číst počítačem a tedy analyzovat. Často důvodem, proč firma neanalyzuje svá temná data, je množství zdrojů, které bude vyžadovat, a obtížnost analýzy těchto dat. Podle Computer Weekly 60 % organizací tvrdí, že jejich vlastní schopnosti BI jsou „neadekvátní“ a 65 % tvrdí, že mají „poněkud neuspořádané přístupy ke správě obsahu“ 10] .
Do kategorie temných dat mohou spadat i užitečná data, která postupem času ztratila svou relevanci. Důvodem je nedostatečná rychlost zpracování dat. Pokud je například podniku známa geolokace zákazníka, může společnost učinit nabídku na základě umístění, avšak pokud tyto údaje nebudou zpracovány okamžitě, nemusí být v budoucnu relevantní. Podle IBM asi 60 procent shromážděných dat okamžitě ztrácí svou hodnotu [4] .
Podle New York Times je 90 % energie využívané datovými centry vyplýtváno [11] . Zamezení redundantního ukládání dat by ušetřilo náklady na energii. Navíc jsou zde náklady spojené s nedostatečným využíváním informací a v důsledku toho i ztracenými příležitostmi. Podle Datamation „data uložená v členských organizacích EMEA tvoří z 54 % tmavá data, 32 % redundantní, zastaralá a triviální data a pouze 14 % jakékoli hodnoty. Od roku 2020 stojí ukládání nadbytečných dat přibližně 900 miliard amerických dolarů [12 ] .
Trvalé ukládání tmavých dat může organizaci ohrozit, zejména pokud jsou data citlivá. Únik dat může mít vážné důsledky: finanční, právní a reputační. Například únik osobních údajů zákazníků může vést k masivní krádeži identity . Dalším příkladem může být únik vlastních citlivých informací společnosti, jako jsou informace týkající se výzkumu a vývoje . Tato rizika lze zmírnit posouzením a ověřením potřeby dat pro organizaci a použitím silného šifrování a dalších bezpečnostních opatření [13] . Mazání nepotřebných dat by mělo být provedeno tak, aby je nebylo možné obnovit [14] .
Všeobecně se uznává, že jak se budou vytvářet pokročilejší výpočetní systémy, hodnota tmavých dat poroste. Panuje názor, že data a jejich analýza se stanou základem nové průmyslové revoluce [5] . Potenciálně užitečná data také zahrnují to, co je v současnosti považováno za „tmavá data“, protože není dostatek zdrojů na jejich zpracování. Všechna tato data lze v budoucnu využít k zajištění maximálního výkonu a schopnosti organizací uspokojovat potřeby zákazníků. Zdravotnické a vzdělávací organizace, které se zabývají velkým množstvím dat, mohou v budoucnu těžit zejména ze zpracování nevyužitých dat [15] .