Nestrukturovaná data

Nestrukturovaná data  jsou data , která neodpovídají předem určenému datovému modelu a jsou zpravidla prezentována ve formě textu s daty, čísly, skutečnostmi v nich umístěnými v libovolné podobě [1] [2] . Taková data je obtížné analyzovat, zejména s tradičními programy navrženými pro práci se strukturovanými daty ( anotovanými nebo uloženými v databázích ).

Merrill Lynch v roce 1998 odhadl , že asi 80–90 % všech potenciálně užitečných obchodních informací bylo prezentováno v nestrukturované formě [1] , ale tento poměr nebyl založen na statistice nebo kvantitativním výzkumu, ale byl předpokladem [2] . Computerworld odhaduje objem nestrukturovaných dat v organizacích na 70-80 % všech dat [3] .

Historie

Nejstarší výzkum v oblasti business intelligence se nezaměřoval na numerická data, ale na nestrukturovaná textová data. Již v roce 1958 zkoumali výzkumníci informačních technologií, jako je H. P. Lun, způsoby, jak extrahovat a klasifikovat data v nestrukturovaném textu. [3] Teprve od počátku 21. století však dostupná technologie dohnala výzkumný zájem. V roce 2004 SAS Institute vyvinul SAS Text Miner, který používá rozklad singulárních hodnot k faktorizaci vysokorozměrného textového prostoru na podprostory s nižší dimenzí, aby se výrazně zjednodušila strojová analýza [4]. . Pokroky v matematice a technologiích zpracování textu podnítily výzkum komerčních organizací v takových oblastech, jako je analýza sentimentu textu (analýza sentimentu), shromažďování a analýza názorů spotřebitelů, automatizace call center [5] . Nástup technologií velkých dat na konci roku 2000 podnítil zvýšený zájem o programy pro analýzu nestrukturovaných dat v moderních oborech, jako je prognózování a analýza hlavních příčin [6] .

Potíže v terminologii

Termín „nestrukturovaná data“ lze považovat za nepřesný z několika důvodů:

Práce s nestrukturovanými daty

Techniky, jako je dolování dat, zpracování přirozeného jazyka a dolování textu , poskytují metody pro hledání vzorců, aby bylo možné nějak interpretovat nestrukturované informace.

Techniky pro strukturování textu obvykle zahrnují ruční značkování (metadata) nebo značkování částí řeči pro další strukturování textu. Architektura správy nestrukturovaných informací (UIMA) poskytuje společný rámec pro zpracování těchto informací za účelem extrahování hodnot a vytváření strukturovaných dat z nestrukturovaných informací [4] . Software, který vytváří strojově čitelnou datovou strukturu, využívá lingvistické, sluchové a vizuální struktury, které existují ve všech formách lidské komunikace [5] . Například speciální algoritmy mohou odvodit strukturu z textu analýzou morfologie , syntaxe vět a tak dále. Nestrukturované informace pak mohou být označeny za účelem jednoznačnosti a ke zlepšení vyhledávání se používají techniky hodnocení relevance.

Příklady „nestrukturovaných dat“ zahrnují knihy, časopisy, dokumenty, metadata, lékařské záznamy, zvuk, video, analogová data, obrázky a soubory založené na nestrukturovaném textu: e-mailové zprávy, webové stránky, dokumenty vytvořené pomocí textových procesorů . Nestrukturované informace mohou být uloženy ve formě strukturovaných objektů (např. ve formě souborů nebo dokumentů), které samy o sobě mají strukturu. V tomto případě se kombinace strukturovaných a nestrukturovaných dat v agregaci nazývá také „nestrukturovaná data“ [6] . Například webové stránky HTML již mají označení, ale lze je použít pouze pro zobrazení. Neobsahuje informace o významech nebo funkcích určitých značkovacích prvků ve formě vhodné pro automatické zpracování. Značení XHTML se snáze zpracovává automaticky, ale obvykle neobsahuje sémantické významy výrazů.

Vzhledem k tomu, že nestrukturovaná data jsou obvykle uložena ve formě elektronických dokumentů , programy pro analýzu obsahu nebo správu dokumentů dávají přednost klasifikaci celých dokumentů před manipulací s dokumenty. Programy pro zpracování tohoto typu dat jsou tedy obvykle nástroji pro vytváření kolekcí dokumentů s nestrukturovanými informacemi. Dnes však existují i ​​řešení, která pracují s atomovými prvky menšími než celý dokument [7] .

Vyhledávače se staly jedním z oblíbených nástrojů pro indexování a vyhledávání nestrukturovaných dat.

Poznámky

  1. Nestrukturovaná data Archivována 21. září 2020 na Wayback Machine // geeksforgeeks.org
  2. [https://web.archive.org/web/20171020135110/https://www.pcmag.com/encyclopedia/term/unstructured-data Archivováno 20. října 2017 na Wayback Machine Nestrukturovaná data] // PC Magazine Encyclopedia
  3. Grimes, Seth Stručná historie textové analýzy . B Eye Network . Získáno 24. června 2016. Archivováno z originálu 8. prosince 2017.
  4. Albrightová, Russův zkrocení text s SVD . S.A.S. _ Získáno 24. června 2016. Archivováno z originálu 21. září 2017.
  5. Desai, Manish Applications of Text Analytics . My Business Analytics @ Blogspot . Získáno 24. června 2016. Archivováno z originálu 13. října 2016.
  6. Chakraborty, Goutam Analýza nestrukturovaných dat: Aplikace analýzy textu a dolování sentimentu . S.A.S. _ Získáno 24. června 2016. Archivováno z originálu 13. ledna 2017.
  7. Datagrav: Rámec pro sdílení znalostí pomocí médií pro spolupráci s podporou transkluze | Sergey Kochuguev - Academia.edu . Získáno 21. září 2016. Archivováno z originálu 15. prosince 2019.

Odkazy