Nestrukturovaná data

Nestrukturovaná data jsou data , která neodpovídají předem určenému datovému modelu a jsou zpravidla prezentována ve formě textu s daty, čísly, skutečnostmi v nich umístěnými v libovolné podobě [1] [2] . Taková data je obtížné analyzovat, zejména s tradičními programy navrženými pro práci se strukturovanými daty ( anotovanými nebo uloženými v databázích ).

Merrill Lynch v roce 1998 odhadl , že asi 80–90 % všech potenciálně užitečných obchodních informací bylo prezentováno v nestrukturované formě [1] , ale tento poměr nebyl založen na statistice nebo kvantitativním výzkumu, ale byl předpokladem [2] . Computerworld odhaduje objem nestrukturovaných dat v organizacích na 70-80 % všech dat [3] .

Historie

Nejstarší výzkum v oblasti business intelligence se nezaměřoval na numerická data, ale na nestrukturovaná textová data. Již v roce 1958 zkoumali výzkumníci informačních technologií, jako je H. P. Lun, způsoby, jak extrahovat a klasifikovat data v nestrukturovaném textu. [3] Teprve od počátku 21. století však dostupná technologie dohnala výzkumný zájem. V roce 2004 SAS Institute vyvinul SAS Text Miner, který používá rozklad singulárních hodnot k faktorizaci vysokorozměrného textového prostoru na podprostory s nižší dimenzí, aby se výrazně zjednodušila strojová analýza [4]. . Pokroky v matematice a technologiích zpracování textu podnítily výzkum komerčních organizací v takových oblastech, jako je analýza sentimentu textu (analýza sentimentu), shromažďování a analýza názorů spotřebitelů, automatizace call center [5] . Nástup technologií velkých dat na konci roku 2000 podnítil zvýšený zájem o programy pro analýzu nestrukturovaných dat v moderních oborech, jako je prognózování a analýza hlavních příčin [6] .

Potíže v terminologii

Termín „nestrukturovaná data“ lze považovat za nepřesný z několika důvodů:

struktura, i když není formálně definována, může být implikována;
data, která mají strukturu nějaké formy, lze ještě charakterizovat jako nestrukturovaná, pokud jejich struktura není určena pro strojové zpracování;
nestrukturované informace mohou mít určitou strukturu (takové informace se nazývají polostrukturované) nebo mohou být dokonce dobře strukturované, ale způsoby, které nejsou zřejmé bez předchozí dohody.

Práce s nestrukturovanými daty

Techniky, jako je dolování dat, zpracování přirozeného jazyka a dolování textu , poskytují metody pro hledání vzorců, aby bylo možné nějak interpretovat nestrukturované informace.

Techniky pro strukturování textu obvykle zahrnují ruční značkování (metadata) nebo značkování částí řeči pro další strukturování textu. Architektura správy nestrukturovaných informací (UIMA) poskytuje společný rámec pro zpracování těchto informací za účelem extrahování hodnot a vytváření strukturovaných dat z nestrukturovaných informací [4] . Software, který vytváří strojově čitelnou datovou strukturu, využívá lingvistické, sluchové a vizuální struktury, které existují ve všech formách lidské komunikace [5] . Například speciální algoritmy mohou odvodit strukturu z textu analýzou morfologie , syntaxe vět a tak dále. Nestrukturované informace pak mohou být označeny za účelem jednoznačnosti a ke zlepšení vyhledávání se používají techniky hodnocení relevance.

Příklady „nestrukturovaných dat“ zahrnují knihy, časopisy, dokumenty, metadata, lékařské záznamy, zvuk, video, analogová data, obrázky a soubory založené na nestrukturovaném textu: e-mailové zprávy, webové stránky, dokumenty vytvořené pomocí textových procesorů . Nestrukturované informace mohou být uloženy ve formě strukturovaných objektů (např. ve formě souborů nebo dokumentů), které samy o sobě mají strukturu. V tomto případě se kombinace strukturovaných a nestrukturovaných dat v agregaci nazývá také „nestrukturovaná data“ [6] . Například webové stránky HTML již mají označení, ale lze je použít pouze pro zobrazení. Neobsahuje informace o významech nebo funkcích určitých značkovacích prvků ve formě vhodné pro automatické zpracování. Značení XHTML se snáze zpracovává automaticky, ale obvykle neobsahuje sémantické významy výrazů.

Vzhledem k tomu, že nestrukturovaná data jsou obvykle uložena ve formě elektronických dokumentů , programy pro analýzu obsahu nebo správu dokumentů dávají přednost klasifikaci celých dokumentů před manipulací s dokumenty. Programy pro zpracování tohoto typu dat jsou tedy obvykle nástroji pro vytváření kolekcí dokumentů s nestrukturovanými informacemi. Dnes však existují i řešení, která pracují s atomovými prvky menšími než celý dokument [7] .

Vyhledávače se staly jedním z oblíbených nástrojů pro indexování a vyhledávání nestrukturovaných dat.

Poznámky

↑ Nestrukturovaná data Archivována 21. září 2020 na Wayback Machine // geeksforgeeks.org
↑ [https://web.archive.org/web/20171020135110/https://www.pcmag.com/encyclopedia/term/unstructured-data Archivováno 20. října 2017 na Wayback Machine Nestrukturovaná data] // PC Magazine Encyclopedia
↑ Grimes, Seth Stručná historie textové analýzy . B Eye Network . Získáno 24. června 2016. Archivováno z originálu 8. prosince 2017. (neurčitý)
↑ Albrightová, Russův zkrocení text s SVD . S.A.S. _ Získáno 24. června 2016. Archivováno z originálu 21. září 2017. (neurčitý)
↑ Desai, Manish Applications of Text Analytics . My Business Analytics @ Blogspot . Získáno 24. června 2016. Archivováno z originálu 13. října 2016. (neurčitý)
↑ Chakraborty, Goutam Analýza nestrukturovaných dat: Aplikace analýzy textu a dolování sentimentu . S.A.S. _ Získáno 24. června 2016. Archivováno z originálu 13. ledna 2017. (neurčitý)
↑ Datagrav: Rámec pro sdílení znalostí pomocí médií pro spolupráci s podporou transkluze | Sergey Kochuguev - Academia.edu . Získáno 21. září 2016. Archivováno z originálu 15. prosince 2019. (neurčitý)

Odkazy

Artak Hovhannisyan . Nestrukturovaná data 2.0 Archivována 11. prosince 2016 na Wayback Machine // Open Systems. DBMS, 2012, č. 04
Leonid Černyak . Analýza nestrukturovaných dat Archivováno 16. ledna 2017 na Wayback Machine // Open Systems. DBMS, 2012, č. 06
Anton Ivanov . Komplexní analýza nestrukturovaných dat archivována 15. listopadu 2016 na Wayback Machine // Open Systems. DBMS, 2013, č. 06
Artem Grishkovsky . Integrované zpracování nestrukturovaných dat Archivováno 11. prosince 2016 na Wayback Machine // Open Systems. DBMS, 2013, č. 06
Struktura, modely a význam: Jsou „nestrukturovaná“ data pouze nemodelovaná? Archivováno 11. února 2009 na Wayback Machine , Intelligent Enterprise , 1. března 2005.
Strukturování nestrukturovaných dat archivováno 30. listopadu 2016 na Wayback Machine , Forbes , 5. dubna 2007.
Christopher C. Shilakes a Julie Tylman, "Enterprise Information Portals" , Merrill Lynch , 16. listopadu 1998.
Holzinger, Andreas; Stocker, Christof; Ofner, Bernard; Prohaška, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer. Kombinace HCI, zpracování přirozeného jazyka a zjišťování znalostí – potenciál IBM Content Analytics jako asistenční technologie v oblasti biomedicíny // Interakce mezi člověkem a počítačem a zjišťování znalostí v komplexních, nestrukturovaných, velkých datech (anglicky) / Holzinger, Andreas; Pasi, Gabriella. - Springer, 2013. - S. 13-24 . — (Poznámky z informatiky). - ISBN 978-3-642-39146-0 . - doi : 10.1007/978-3-642-39146-0_2 .
Nestrukturovaná data a pravidlo 80 procent archivováno 12. září 2014 na Wayback Machine , Seth Grimes, Clarabridge Bridgepoints, 3. čtvrtletí 2008.
Dnešní výzva ve vládě: Co dělat s nestrukturovanými informacemi a proč nedělat nic není alternativou, Noel Yuhanna, hlavní analytik, Forrester Research , listopad 2010
Nová studie digitálního vesmíru odhaluje velkou propast v datech: Analyzováno je méně než 1 % světových dat; Méně než 20 % je chráněno Archivováno 18. dubna 2016 na Wayback Machine , tisková zpráva EMC , prosinec 2012.
Semi- a nestrukturované zpracování/příprava dat v IRI CoSort Archivováno 16. října 2016 na Wayback Machine , květen 2014.

Slovníky a encyklopedie	velká čínština Britannica (online)