Velká data
Velká data ( anglicky big data , [ ˈbɪɡ ˈdeɪtə ]) je označení strukturovaných a nestrukturovaných dat obrovských objemů a značné rozmanitosti, efektivně zpracovávaných horizontálně škálovatelnými softwarovými nástroji, které se objevily na konci 21. století a jsou alternativami k tradičním systémům správy databází a business class řešení [1] [2] [3] .
V širším slova smyslu se o „velkých datech“ mluví jako o socioekonomickém fenoménu spojeném s rozvojem technologických schopností analyzovat obrovské množství dat v některých problémových oblastech – celý globální objem dat a z toho vyplývající transformační důsledky [ 4] .
Jako definující charakteristiky pro velká data se tradičně rozlišují „tři V“: objem ( anglicky volume , ve smyslu velikosti fyzického objemu), rychlost ( velocity ve smyslu jak rychlosti růstu, tak potřeby vysoké rychlosti). zpracování a získávání výsledků), diverzita ( rozmanitost , ve smyslu možnosti současného zpracování různých typů strukturovaných a polostrukturovaných dat) [5] [6] ; později vznikly různé variace a interpretace tohoto znaku .
Z pohledu informačních technologií soubor přístupů a nástrojů zpočátku zahrnoval masově paralelní zpracování neurčitě strukturovaných dat, především systémy pro správu databází kategorie NoSQL , algoritmy MapReduce a softwarové rámce a knihovny projektu Hadoop , které je implementují. [7] . V budoucnu se řadě technologií velkých dat začala připisovat řada řešení informačních technologií, které v té či oné míře poskytují podobné schopnosti, pokud jde o vlastnosti pro zpracování extra velkých datových polí.
Historie
Široké zavedení termínu „big data“ je spojeno s Cliffordem Lynchem , editorem časopisu Nature , který na 3. září 2008 připravil speciální vydání s tématem „Jak mohou technologie, které otevírají příležitosti pro práci s velkými daty, ovlivnit budoucnost vědy?" , která shromáždila materiály o fenoménu explozivního růstu objemu a rozmanitosti zpracovávaných dat a technologických vyhlídek v paradigmatu pravděpodobného skoku „od kvantity ke kvalitě“; termín byl navržen analogií s metaforami “big oil” , “big ore” obyčejný v obchodě anglicky mluvícím prostředí [9] [10] .
Přestože byl termín zaveden v akademickém prostředí a především byl analyzován problém růstu a diverzity vědeckých dat, od roku 2009 je termín široce šířen v obchodním tisku a do roku 2010 se objevuje první produkty a řešení[ zjednodušený výraz ] týkající se výhradně a přímo problému zpracování velkých dat. Do roku 2011 většina největších poskytovatelů informačních technologií pro organizace ve svých obchodních strategiích využívá koncept velkých dat, včetně IBM [11] , Oracle [12] , Microsoft [13] , Hewlett-Packard [14] , EMC [15] , a hlavní analytici trhu informačních technologií věnují tomuto konceptu specializovaný výzkum [5] [16] [17] [18] .
V roce 2011 Gartner zařadil big data jako trend číslo dvě v IT infrastruktuře (po virtualizaci a významnější než úspory energie a monitorování ) [19] . Zároveň se předpovídalo, že zavádění technologií velkých dat bude mít největší dopad na informační technologie ve výrobě , zdravotnictví , obchodu , veřejné správě a také v oblastech a odvětvích, kde jsou zaznamenávány jednotlivé pohyby zdrojů [20] .
Od roku 2013 se velká data jako akademický předmět studují ve vznikajících univerzitních programech v oblasti datové vědy [21] a výpočetní vědy a inženýrství [22] .
V roce 2015 společnost Gartner vyloučila velká data z cyklu vyspělosti nových technologií a přestala vydávat samostatný cyklus vyspělosti technologie velkých dat, který byl vydán v letech 2011–2014, s odkazem na přechod od humbuku k praktickému využití. Technologie, které se objevily ve vyhrazeném cyklu zralosti, se z větší části přesunuly do speciálních cyklů v pokročilé analytice a vědě o datech, BI a analýze dat, řízení podnikových informací, výpočetní techniky v domácnostech , informační infrastruktuře [23] .
VVV
Sada funkcí VVV ( volume, velocity, variety ) byla původně vyvinuta společností Meta Group v roce 2001, mimo kontext představ o velkých datech jako určitá řada metod a nástrojů informačních technologií, v souvislosti s rostoucí popularitou konceptu centrální datový sklad pro organizace, byla konstatována rovnocennost problematiky správy dat ve všech třech aspektech [24] . Následně se objevily interpretace se „čtyřmi V“ ( byla přidána pravdivost – spolehlivost, použito v propagačních materiálech IBM [25] ), „pěti V“ (v této verzi byla přidaná životaschopnost – životaschopnost a hodnota – hodnota [26] ), a dokonce „rodinu V“ (kromě všeho přidali i variabilitu a vizualizaci [27] ). IDC interpretuje „čtvrté V“ jako hodnotu z hlediska důležitosti ekonomické proveditelnosti zpracování vhodných objemů za vhodných podmínek, což se odráží i v definici velkých dat IDC [28] . Ve všech případech tyto znaky zdůrazňují, že určujícím znakem pro velká data není pouze jejich fyzický objem, ale další kategorie, které jsou nezbytné pro pochopení složitosti úlohy zpracování a analýzy dat.
Zdroje
Internet věcí a sociální média jsou uznávány jako klasické zdroje velkých dat , má se také za to, že velká data mohou pocházet z interních informací podniků a organizací (vytvořených v informačním prostředí, ale dříve neuložených ani analyzovaných), z polí medicíny a bioinformatiky , z astronomických pozorování [29] .
Příklady zdrojů velkých dat jsou [30] [31] průběžně přicházející data z měřicích zařízení, události z RFID , toky zpráv ze sociálních sítí , meteorologická data , data dálkového průzkumu Země , datové toky o poloze účastníků celulárních sítí , zařízení pro audio a video nahrávky . Očekává se, že rozvoj a počátek širokého využívání těchto zdrojů iniciuje pronikání big data technologií jak do výzkumných aktivit, tak do komerčního sektoru a veřejné správy.
Metody analýzy
Analytické metody a techniky použitelné pro velká data zdůrazněné ve zprávě McKinsey [32] :
- metody třídy Data Mining : učení asociačních pravidel , klasifikace (metody kategorizace nových dat založené na principech dříve aplikovaných na existující data), shluková analýza , regresní analýza ;
- crowdsourcing - kategorizace a obohacování dat silami širokého, neurčitého okruhu zúčastněných osob na základě veřejné nabídky, bez uzavírání pracovněprávního vztahu;
- mixování a integrace dat ( anglicky data fusion and integration ) - soubor technik, které umožňují integrovat heterogenní data z různých zdrojů pro možnost hloubkové analýzy, digitálního zpracování signálu a zpracování přirozeného jazyka (včetně tónové analýzy ) jsou uvedeny jako příklady takových technik, které tvoří tuto třídu metod . );
- strojové učení , včetně řízeného a neřízeného učení , stejně jako Ensemble learning -- použití modelů vybudovaných na základě statistické analýzy nebo strojového učení k získání komplexních předpovědí založených na základních modelech ( angl. constituent models , srov. s statistický soubor ve statistické mechanice);
- umělé neuronové sítě , síťová analýza , optimalizace včetně genetických algoritmů ;
- rozpoznávání vzorů ;
- prediktivní analytika ;
- simulační modelování ;
- Prostorová analýza je třída metod, které využívají topologické , geometrické a geografické informace v datech;
- jako příklady metod jsou uvedeny statistické analýzy , A/B testování a analýza časových řad ;
- vizualizace analytických dat - prezentace informací ve formě obrázků, diagramů, s využitím interaktivních prvků a animací, jak pro získání výsledků, tak pro použití jako vstupní data pro další analýzu.
Technologie
Nejčastěji se jako základní princip zpracování velkých dat označuje horizontální škálovatelnost , která zajišťuje zpracování dat distribuovaných po stovkách a tisících výpočetních uzlů bez snížení výkonu; konkrétně je tento princip obsažen v definici velkých dat NIST [33] . McKinsey přitom kromě technologií NoSQL, MapReduce, Hadoop, R zvažovaných většinou analytiků zahrnuje také technologie Business Intelligence a systémy pro správu relačních databází s podporou jazyka SQL [34] v kontextu použitelnosti pro zpracování velká data .
NoSQL
MapReduce
Hadoop
R
Hardwarová řešení
Existuje řada hardwarových a softwarových systémů, které poskytují předkonfigurovaná řešení pro zpracování velkých dat: zařízení Aster MapReduce ( korporace Teradata ), zařízení Oracle Big Data , zařízení Greenplum ( korporace EMC , založené na řešeních kupované společnosti Greenplum ). Tyto sady jsou dodávány jako rozvaděče datových center připravené k instalaci obsahující cluster serverů a řídicí software pro masivně paralelní zpracování.
Hardwarová řešení pro rezidenční výpočetní techniku , především pro databáze v paměti a zejména analýzy v paměti, nabízená hardwarovými a softwarovými systémy Hana ( předkonfigurované hardwarové a softwarové řešení SAP ) a Exalytics ( komplex Oracle založený na relačním systému Timesten systém a multidimenzionální Essbase ), jsou také někdy označovány jako řešení pro velká data [35] [36] , a to navzdory skutečnosti, že takové zpracování není zpočátku masivně paralelní a velikost RAM jednoho uzlu je omezena na několik terabajtů .
Navíc někdy jsou hardwarové a softwarové systémy založené na tradičních systémech správy relačních databází - Netezza , Teradata , Exadata - někdy označovány jako řešení pro velká data , protože jsou schopny efektivně zpracovávat terabajty a exabajty strukturovaných informací a řešit tak problémy rychlé vyhledávání a analytické zpracování obrovských objemů strukturovaných dat. Je třeba poznamenat, že prvními masivně paralelními hardwarově-softwarovými řešeními pro zpracování velmi velkého množství dat byly stroje Britton Lee , poprvé uvedené na trh v roce 1983 , a Teradata (začaly se vyrábět v roce 1984 , navíc v roce 1990 Teradata absorbovala Britton Lee ) [37] .
Hardwarová řešení DAS - systémy ukládání dat přímo připojené k uzlům - jsou v podmínkách nezávislosti uzlů zpracování v architektuře SN také někdy označovány jako technologie velkých dat. Právě s příchodem konceptu velkých dat je spojen nárůst zájmu o řešení DAS na počátku 2010 , poté, co byla v 21. století vytlačena síťovými řešeními tříd NAS a SAN [38] .
Poznámky
- ↑ Primesberger, 2011 , „Velká data označují objem, rozmanitost a rychlost proudění strukturovaných a nestrukturovaných dat přes sítě do procesorů a úložných zařízení, spolu s přeměnou těchto dat na obchodní poradenství pro podniky.
- ↑ PwC, 2010 , Termín „velká data“ označuje datové sady s možným exponenciálním růstem, které jsou příliš velké, příliš neformátované nebo příliš nestrukturované na to, aby je bylo možné analyzovat tradičními metodami. 42.
- ↑ McKinsey, 2011 , „Velká data“ se týkají datových sad, jejichž velikost přesahuje schopnost typických databázových softwarových nástrojů zachytit, uložit, spravovat a analyzovat, str. jeden.
- ↑ Mayer-Schoenberger, 2014 .
- ↑ 12 Gartner , 2011 .
- ↑ Kanarakus, Chris. Big Data Machine . Sítě , č. 04, 2011 . Otevřené systémy (1. listopadu 2011). - „... velká data jako „tři V“: objem („objem“ – petabajty uložených dat), rychlost („rychlost“ – získávání, transformace, načítání, analýza a dotazování v reálném čase) a rozmanitost („rozmanitost“ ” - zpracování strukturovaných a polostrukturovaných dat různých typů). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012. (Ruština)
- ↑ PwC, 2010 , Začátkem roku 2010 Hadoop, MapReduce a jejich přidružené open source technologie poháněly zcela nový fenomén, který O'Reilly Media, The Economist a další nazvali big data, str. 42.
- ↑ Světová technologická kapacita pro ukládání, komunikaci a výpočet informací . MartinHilbert.net . Získáno 13. dubna 2016. Archivováno z originálu 14. dubna 2016. (neurčitý)
- ↑ Chernyak, 2011 , Big Data jsou jedním z mála titulů, které mají zcela spolehlivé datum narození – 3. září 2008, kdy vyšlo speciální číslo nejstaršího britského vědeckého časopisu Nature věnované hledání odpovědi na otázku „ Jak mohou technologie, které otevírají možnost pracovat s velkým množstvím dat? […] Uvědomil si rozsah nadcházejících změn, editor Nature Clifford Lynch navrhl zvláštní název pro nové paradigma Big Data, které zvolil analogicky s takovými metaforami, jako je Big Oil, Big Ore atd., které neodrážejí tolik množství. něčeho, jak moc přechod kvantity v kvalitu.
- ↑ Příklad použití metafory Big Oil (anglicky) , srov. také příběh "Big Ore" , film "Big Oil"
- ↑ Dubová, Natalya. Velká konference o velkých datech . Otevřené systémy (3. listopadu 2011). „Fórum IBM Information on Demand, na kterém se sešlo více než 10 000 účastníků, se zaměřilo na analýzu velkých dat.“ Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012. (Ruština)
- ↑ Henschen, Doug. Oracle vydává databázi NoSQL a posouvá plány velkých dat . InformationWeek (24. října 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012.
- ↑ Finley, Klint. Steve Ballmer o budoucnosti velkých dat společnosti Microsoft a dalších v přehledu Business Intelligence Roundup z tohoto týdne . ReadWriteWeb (17. července 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012.
- ↑ Šáh, Agam. HP mění osobní počítače na Big Data . Otevřené systémy (19. srpna 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012. (neurčitý)
- ↑ EMC se snaží sjednotit analýzu velkých dat . InformationWeek (21. září 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012.
- ↑ Woo, Benjamin a kol. IDC Worldwide Big Data Taxonomy . International Data Corporation (1. října 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012.
- ↑ Evelson, Boris a Hopkins, Brian. Jak klienti Forrester využívají velká data . Forrester Research (20. září 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012.
- ↑ McKinsey, 2011 .
- ↑ Thibodeau, Patrick. Mezi 10 největších IT výzev společnosti Gartner patří ukončení baby boomu, Big Data . Computerworld (18. října 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012.
- ↑ Chernyak, 2011 , Podle odborníků, jako je McKinsey Institute, pod vlivem Big Data projde největší proměnou sféra výroby, zdravotnictví, obchodu, administrativy a sledování jednotlivých pohybů.
- ↑ MSc v oboru Data Science . Škola výpočetní techniky . Dundee University (1. ledna 2013). „Datový vědec je člověk, který vyniká v manipulaci a analýze dat, zejména velkých souborů dat, které se nedají snadno začlenit do tabulkových struktur (takzvaných „Big Data“). Datum přístupu: 18. ledna 2013. Archivováno z originálu 22. ledna 2013.
- ↑ Titul Master of Science. První studijní program na Harvardu v oboru výpočetní vědy a inženýrství je intenzivním rokem výuky vedoucí k získání titulu Master of Science . Ústav aplikované výpočetní vědy . Harvardská univerzita (1. ledna 2013). — „“…Mnoho z určujících otázek této éry ve vědě a technologii se bude soustřeďovat na „velká data“ a strojové učení. Tento magisterský program připraví studenty na zodpovězení těchto otázek…””. Datum přístupu: 18. ledna 2013. Archivováno z originálu 22. ledna 2013.
- ↑ Simon Sharwood. Zapomeňte na humbuk s velkými daty , říká Gartner, když zastavuje svůj cyklus humbuku . The Register (21. srpna 2015). Získáno 19. února 2017. Archivováno z originálu 20. února 2017.
- ↑ Doug Laney. Správa 3D dat : Řízení objemu, rychlosti a rozmanitosti dat . Meta Group (6. února 2001). Datum přístupu: 19. února 2017. Archivováno z originálu 23. července 2013.
- ↑ Čtyři V velkých dat . IBM (2011). Datum přístupu: 19. února 2017. Archivováno z originálu 16. června 2016.
- ↑ Neil Biehn. Chybějící V ve velkých datech: životaschopnost a hodnota . Drátové (1. května 2013). Získáno 19. února 2017. Archivováno z originálu 20. února 2017.
- ↑ Eileen McNulty. Pochopení velkých dat : Sedm V . Dataconomy (22. května 2014). Získáno 19. února 2017. Archivováno z originálu 20. února 2017.
- ↑ Chen et al., 2014 , „technologie velkých dat popisují novou generaci technologií a architektur navržených tak, aby ekonomicky extrahovaly hodnotu z velmi velkých objemů široké škály dat tím, že umožňují vysokorychlostní zachycování, objevování a/nebo analýza“, str. čtyři.
- ↑ Chen a kol., 2014 , str. 19-23.
- ↑ McKinsey, 2011 , str. 7-8.
- ↑ Chernyak, 2011 .
- ↑ McKinsey, 2011 , str. 27-31.
- ↑ Chen et al., 2014 , „Velká data znamenají data, jejichž objem dat, rychlost získávání nebo reprezentace dat omezuje kapacitu použití tradičních relačních metod k provádění efektivní analýzy nebo data, která mohou být efektivně zpracována s důležitými horizontálními technologie zoomu“, str. čtyři.
- ↑ McKinsey, 2011 , str. 31-33.
- ↑ Chernyak, 2011 , Dalším krokem by mohla být technologie SAP HANA (High Performance Analytic Appliance), jejíž podstatou je umístění dat pro analýzu do paměti RAM.
- ↑ Darrow, Barb. Oracle spouští Exalytics, zařízení pro velká data . GigaOM (2. října 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012.
- ↑ Chernyak, 2011 , ... Britton-Lee jako první vytvořil v roce 1983 „databázový stroj“ založený na multiprocesorové konfiguraci rodiny procesorů Zilog Z80. Následně společnost Britton-Lee koupila společnost Teradata, která od roku 1984 vyrábí počítače s architekturou MPP pro systémy na podporu rozhodování a datové sklady.
- ↑ Leonid Černyak. Velká data oživují DAS . "Computerworld Russia", č. 14, 2011 . Otevřené systémy (5. května 2011). Získáno 12. listopadu 2011. Archivováno z originálu 3. září 2012. (Ruština)
Literatura
- Min Chen, Shiwen Mao, Yin Zhang, Victor CM Leung. velká data. Související technologie, výzvy a vyhlídky do budoucna. - Spinger, 2014. - 100 s. - ISBN 978-3-319-06244-0 . - doi : 10.1007/978-3-319-06245-7 .
- Victor Mayer-Schoenberger, Kenneth Cookier. Velká data. Revoluce, která změní způsob, jakým žijeme, pracujeme a myslíme = Big Data. Revoluce, která změní to, jak žijeme, pracujeme a myslíme / per. z angličtiny. Inna Gaydyuk. — M. : Mann, Ivanov, Ferber, 2014. — 240 s. - ISBN 987-5-91657-936-9.
- Preimesberger, Chris Hadoop, Yahoo, 'Big Data ' Brighten BI Future . EWeek (15. srpna 2011). Získáno 12. listopadu 2011. Archivováno z originálu 17. května 2012.
- Leonid Černyak. Velká data — Nová teorie a praxe // Otevřené systémy. DBMS . - 2011. - č. 10 . — ISSN 1028-7493 . (Ruština)
- Alan Morrison a spol. Velká data: jak z nich získat informace . Technologická předpověď. Čtvrtletník, ruské vydání, 2010 číslo 3 . PricewaterhouseCoopers (17. prosince 2010). Získáno 12. listopadu 2011. Archivováno z originálu 11. března 2012. (Ruština)
- Gartner říká, že řešení výzvy „Big Data“ zahrnuje více než jen správu objemů dat . Gartner (27. června 2011). Získáno 12. listopadu 2011. Archivováno z originálu 17. května 2012.
- James Manyika a kol. Velká data: další hranice pro inovace, konkurenci a produktivitu (anglicky) (PDF). McKinsey Global Institute, červen 2011 . McKinsey (9. srpna 2011). Získáno 12. listopadu 2011. Archivováno z originálu 11. prosince 2012.
Odkazy
![Přejděte na položku Wikidata](//upload.wikimedia.org/wikipedia/commons/thumb/8/8a/OOjs_UI_icon_edit-ltr-progressive.svg/14px-OOjs_UI_icon_edit-ltr-progressive.svg.png) | V bibliografických katalozích |
---|
|
|
---|