Tmavá data

Dark data jsou data , která jsou automaticky sbírána při rutinních činnostech v počítačových sítích, ale nejsou nijak využívána k získávání informací nebo rozhodování [1] [2] . Schopnost organizace shromažďovat data může překročit propustnost, se kterou může data analyzovat . V některých případech si organizace ani nemusí být vědoma, že se data shromažďují [3] . IBM odhaduje , že zhruba 90 procent dat generovaných senzory a A/D převodníky není nikdy použito [4] .

V průmyslovém kontextu mohou temná data zahrnovat informace shromážděné senzory a telematikou [5] .

Organizace ukládají skrytá data z různých důvodů a odhaduje se, že většina společností analyzuje pouze 1 % svých dat [6] . Důvody pro ukládání nevyužitých dat mohou zahrnovat dodržování předpisů [7] a archivy [1] . Některé organizace se domnívají, že skrytá data pro ně mohou být užitečná v budoucnu, až budou k dispozici pokročilejší analytické a business intelligence technologie [3] . Protože úložiště je levné, ukládání dat je snadné. Ukládání a ochrana dat však obvykle přináší vyšší náklady než potenciální zisk.

Profesor David Hand z Imperial College London používá termín „tmavá data“ k označení chybějících dat: „tmavá data jsou data, která nemáte“ [8] [a] .

Analýza

Mnoho tmavých dat je nestrukturovaných, což znamená, že informace jsou prezentovány ve formátech, které může být obtížné kategorizovat, číst počítačem a tedy analyzovat. Často důvodem, proč firma neanalyzuje svá temná data, je množství zdrojů, které bude vyžadovat, a obtížnost analýzy těchto dat. Podle Computer Weekly 60 % organizací tvrdí, že jejich vlastní schopnosti BI jsou „neadekvátní“ a 65 % tvrdí, že mají „poněkud neuspořádané přístupy ke správě obsahu“ 10] .

Relevance

Do kategorie temných dat mohou spadat i užitečná data, která postupem času ztratila svou relevanci. Důvodem je nedostatečná rychlost zpracování dat. Pokud je například podniku známa geolokace zákazníka, může společnost učinit nabídku na základě umístění, avšak pokud tyto údaje nebudou zpracovány okamžitě, nemusí být v budoucnu relevantní. Podle IBM asi 60 procent shromážděných dat okamžitě ztrácí svou hodnotu [4] .

Úložiště

Podle New York Times je 90 % energie využívané datovými centry vyplýtváno [11] . Zamezení redundantního ukládání dat by ušetřilo náklady na energii. Navíc jsou zde náklady spojené s nedostatečným využíváním informací a v důsledku toho i ztracenými příležitostmi. Podle Datamation „data uložená v členských organizacích EMEA tvoří z 54 % tmavá data, 32 % redundantní, zastaralá a triviální data a pouze 14 % jakékoli hodnoty. Od roku 2020 stojí ukládání nadbytečných dat přibližně 900 miliard amerických dolarů [12 ] .

Trvalé ukládání tmavých dat může organizaci ohrozit, zejména pokud jsou data citlivá. Únik dat může mít vážné důsledky: finanční, právní a reputační. Například únik osobních údajů zákazníků může vést k masivní krádeži identity . Dalším příkladem může být únik vlastních citlivých informací společnosti, jako jsou informace týkající se výzkumu a vývoje . Tato rizika lze zmírnit posouzením a ověřením potřeby dat pro organizaci a použitím silného šifrování a dalších bezpečnostních opatření [13] . Mazání nepotřebných dat by mělo být provedeno tak, aby je nebylo možné obnovit [14] .

Budoucnost

Všeobecně se uznává, že jak se budou vytvářet pokročilejší výpočetní systémy, hodnota tmavých dat poroste. Panuje názor, že data a jejich analýza se stanou základem nové průmyslové revoluce [5] . Potenciálně užitečná data také zahrnují to, co je v současnosti považováno za „tmavá data“, protože není dostatek zdrojů na jejich zpracování. Všechna tato data lze v budoucnu využít k zajištění maximálního výkonu a schopnosti organizací uspokojovat potřeby zákazníků. Zdravotnické a vzdělávací organizace, které se zabývají velkým množstvím dat, mohou v budoucnu těžit zejména ze zpracování nevyužitých dat [15] .

Poznámky

Poznámky pod čarou

↑ Hands uvádí 15 různých typů tmavých dat v závislosti na povaze druhých [9]

Zdroje

↑ 12 Tmavá data . Gartner . Získáno 27. dubna 2021. Archivováno z originálu dne 31. března 2019. (neurčitý)
↑ Název. Nebezpečí temných dat a jak minimalizovat svou expozici . CIO (24. září 2014). Získáno 27. dubna 2021. Archivováno z originálu 15. ledna 2019. (neurčitý)
↑ 12 Brantley . The API Briefing: Challenge of Government's Dark Data . Digitalgov.gov (17. června 2015). Získáno 27. dubna 2021. Archivováno z originálu 16. ledna 2018. (neurčitý)
↑ 12 Johnson . Vykopávání temných dat: Co staví IBM do popředí ekonomiky insightů ? . SiliconANGLE (30. října 2015). Získáno 3. listopadu 2015. Archivováno z originálu 11. července 2018. (neurčitý)
↑ 12 Dennies . TeradataVoice: Továrny budoucnosti: Hodnota temných dat . Forbes (19. února 2015). Archivováno z originálu 22. února 2015. (neurčitý)
↑ Shahzad. Velká data transformace pro zpracovatelský průmysl . IBM Big Data & Analytics Hub (3. ledna 2017). Získáno 27. dubna 2021. Archivováno z originálu dne 6. března 2018. (neurčitý)
↑ Využíváte svá temná data efektivně (downlink) . Získáno 27. dubna 2021. Archivováno z originálu 16. ledna 2017. (neurčitý)
↑ David Ruka. 10minutové hovory: Temná data . Britská akademie . Britská akademie (18. listopadu 2020). Získáno 2. března 2021. Archivováno z originálu dne 27. dubna 2021. (neurčitý)
↑ Ruka, 2021 , str. 17.
↑ Míle. Tmavá data by mohla zastavit cestu velkých dat k úspěchu . Počítačový týdeník (27. prosince 2013). Získáno 3. listopadu 2015. Archivováno z originálu 10. dubna 2019. (neurčitý)
↑ Glanz . Datová centra plýtvají obrovským množstvím energie, Belying Industry Image , The New York Times (22. září 2012). Archivováno 16. května 2019. Staženo 2. listopadu 2015.
↑ Hernandez. Podniky hromadí „temná“ data: Veritas . Datamation (30. října 2015). Získáno 4. listopadu 2015. Archivováno z originálu dne 4. října 2017. (neurčitý)
↑ DarkShield používá strojové učení k nalezení a maskování PII , IRI. Archivováno z originálu 15. ledna 2019. Staženo 14. ledna 2019.
↑ Název. Nebezpečí temných dat a jak minimalizovat svou expozici . CIO (24. září 2014). Získáno 2. listopadu 2015. Archivováno z originálu 15. ledna 2019. (neurčitý)
↑ Praha Využití temných dat : Otázky a odpovědi s Melissou McCormack ? . The Machine Learning Times (30. září 2014). Získáno 4. listopadu 2015. Archivováno z originálu dne 14. dubna 2019. (neurčitý)

Literatura

David Ruka . Tmavá data. Praktický průvodce správným rozhodováním ve světě chybějících dat = David J. Hand. Temná data Proč je to, co nevíme, ještě důležitější než to, co děláme. — M .: Alpina Publisher , 2021. — 366 s. — ISBN 978-5-9614-4143-7 .