Nestrukturovaná data jsou data , která neodpovídají předem určenému datovému modelu a jsou zpravidla prezentována ve formě textu s daty, čísly, skutečnostmi v nich umístěnými v libovolné podobě [1] [2] . Taková data je obtížné analyzovat, zejména s tradičními programy navrženými pro práci se strukturovanými daty ( anotovanými nebo uloženými v databázích ).
Merrill Lynch v roce 1998 odhadl , že asi 80–90 % všech potenciálně užitečných obchodních informací bylo prezentováno v nestrukturované formě [1] , ale tento poměr nebyl založen na statistice nebo kvantitativním výzkumu, ale byl předpokladem [2] . Computerworld odhaduje objem nestrukturovaných dat v organizacích na 70-80 % všech dat [3] .
Nejstarší výzkum v oblasti business intelligence se nezaměřoval na numerická data, ale na nestrukturovaná textová data. Již v roce 1958 zkoumali výzkumníci informačních technologií, jako je H. P. Lun, způsoby, jak extrahovat a klasifikovat data v nestrukturovaném textu. [3] Teprve od počátku 21. století však dostupná technologie dohnala výzkumný zájem. V roce 2004 SAS Institute vyvinul SAS Text Miner, který používá rozklad singulárních hodnot k faktorizaci vysokorozměrného textového prostoru na podprostory s nižší dimenzí, aby se výrazně zjednodušila strojová analýza [4]. . Pokroky v matematice a technologiích zpracování textu podnítily výzkum komerčních organizací v takových oblastech, jako je analýza sentimentu textu (analýza sentimentu), shromažďování a analýza názorů spotřebitelů, automatizace call center [5] . Nástup technologií velkých dat na konci roku 2000 podnítil zvýšený zájem o programy pro analýzu nestrukturovaných dat v moderních oborech, jako je prognózování a analýza hlavních příčin [6] .
Termín „nestrukturovaná data“ lze považovat za nepřesný z několika důvodů:
Techniky, jako je dolování dat, zpracování přirozeného jazyka a dolování textu , poskytují metody pro hledání vzorců, aby bylo možné nějak interpretovat nestrukturované informace.
Techniky pro strukturování textu obvykle zahrnují ruční značkování (metadata) nebo značkování částí řeči pro další strukturování textu. Architektura správy nestrukturovaných informací (UIMA) poskytuje společný rámec pro zpracování těchto informací za účelem extrahování hodnot a vytváření strukturovaných dat z nestrukturovaných informací [4] . Software, který vytváří strojově čitelnou datovou strukturu, využívá lingvistické, sluchové a vizuální struktury, které existují ve všech formách lidské komunikace [5] . Například speciální algoritmy mohou odvodit strukturu z textu analýzou morfologie , syntaxe vět a tak dále. Nestrukturované informace pak mohou být označeny za účelem jednoznačnosti a ke zlepšení vyhledávání se používají techniky hodnocení relevance.
Příklady „nestrukturovaných dat“ zahrnují knihy, časopisy, dokumenty, metadata, lékařské záznamy, zvuk, video, analogová data, obrázky a soubory založené na nestrukturovaném textu: e-mailové zprávy, webové stránky, dokumenty vytvořené pomocí textových procesorů . Nestrukturované informace mohou být uloženy ve formě strukturovaných objektů (např. ve formě souborů nebo dokumentů), které samy o sobě mají strukturu. V tomto případě se kombinace strukturovaných a nestrukturovaných dat v agregaci nazývá také „nestrukturovaná data“ [6] . Například webové stránky HTML již mají označení, ale lze je použít pouze pro zobrazení. Neobsahuje informace o významech nebo funkcích určitých značkovacích prvků ve formě vhodné pro automatické zpracování. Značení XHTML se snáze zpracovává automaticky, ale obvykle neobsahuje sémantické významy výrazů.
Vzhledem k tomu, že nestrukturovaná data jsou obvykle uložena ve formě elektronických dokumentů , programy pro analýzu obsahu nebo správu dokumentů dávají přednost klasifikaci celých dokumentů před manipulací s dokumenty. Programy pro zpracování tohoto typu dat jsou tedy obvykle nástroji pro vytváření kolekcí dokumentů s nestrukturovanými informacemi. Dnes však existují i řešení, která pracují s atomovými prvky menšími než celý dokument [7] .
Vyhledávače se staly jedním z oblíbených nástrojů pro indexování a vyhledávání nestrukturovaných dat.
Slovníky a encyklopedie |
---|