Hadoop

Apache Hadoop
Typ rámec
Autor Doug Cutting [d]
Vývojář Apache Software Foundation
Zapsáno v Jáva
Operační systém multiplatformní a POSIX
První vydání 1. dubna 2006 [1]
Hardwarová platforma Java virtuální stroj
Nejnovější verze
Licence Licence Apache 2.0 a GNU GPL
webová stránka hadoop.apache.org
 Mediální soubory na Wikimedia Commons

Hadoop  je projekt Apache Software Foundation , volně distribuovaná sada utilit , knihoven a frameworku pro vývoj a spouštění distribuovaných programů běžících na klastrech stovek a tisíců uzlů. Používá se k implementaci vyhledávacích a kontextových mechanismů pro mnoho webů s vysokým zatížením, včetně Yahoo! a Facebook [2] . Vyvinuto v Javě v rámci výpočetního paradigmatu MapReduce , podle kterého je aplikace rozdělena do velkého počtu stejných elementárních úloh, které jsou spustitelné na uzlech clusteru a jsou přirozeně redukovány na konečný výsledek.

Od roku 2014 se projekt skládá ze čtyř modulů - Hadoop Common ( střední software  - sada infrastrukturních softwarových knihoven a utilit používaných pro další moduly a související projekty), HDFS ( distribuovaný souborový systém ), YARN (systém pro plánování úloh a správu clusteru) a Hadoop MapReduce (platforma pro programování a provádění distribuovaných výpočtů MapReduce), dříve Hadoop zahrnoval řadu dalších projektů, které se osamostatnily v rámci projektového systému Apache Software Foundation.

Je považována za jednu ze základních technologií „ velkých dat “. Kolem Hadoopu se vytvořil celý ekosystém souvisejících projektů a technologií, z nichž mnohé byly původně vyvinuty jako součást projektu a později se osamostatnily. Od druhé poloviny 20. století probíhá proces aktivní komercializace technologie , několik společností staví své podnikání výhradně na vytváření komerčních distribucí Hadoop a služeb technické podpory ekosystémů a téměř všech hlavních informačních technologií poskytovatelé pro organizace v té či oné formě zahrnují Hadoop do produktových strategií a produktových řad.

Historie

Vývoj inicioval počátkem roku 2005 Doug Cutting s  cílem vybudovat distribuovanou výpočetní softwarovou infrastrukturu pro projekt Nutch  , svobodný softwarový vyhledávač v Javě , jehož ideologickým základem byla publikace zaměstnanců Google Jeffreyho Deana a Sanjaye Gemawata [3] o výpočetních konceptech MapReduce [4] . Nový projekt byl pojmenován po zakladatelově hračce slůně [5] .

V letech 2005-2006 byl Hadoop vyvinut dvěma vývojáři - Cuttingem a Mikem Cafarellou ( Mike Cafarella ) v režimu na částečný úvazek [4] , nejprve jako součást projektu Nutch, poté - projektu Lucene . V lednu 2006 byl Cutting pozván Yahoo , aby vedl specializovaný tým pro vývoj distribuované výpočetní infrastruktury, která také zahrnuje oddělení Hadoop do samostatného projektu. V únoru 2008 Yahoo spustilo 10 000 jádrový clusterový vyhledávač poháněný Hadoopem.

V lednu 2008 se Hadoop stává projektem nejvyšší úrovně projektového systému Apache Software Foundation . V dubnu 2008 překonal Hadoop světový výkonový rekord v benchmarku standardizovaného třídění dat  , když zpracoval 1 TB za 209 sekund. na shluku 910 uzlů [6] . Od té chvíle se Hadoop začal široce používat mimo Yahoo - Last.fm , Facebook , The New York Times [7] implementují technologii pro své stránky a probíhají adaptace pro provozování Hadoopu v cloudech Amazon EC2 .

V dubnu 2010 Google udělil nadaci Apache Software Foundation práva k používání technologie MapReduce, tři měsíce poté, co byla obhajována v americkém patentovém úřadu , čímž ulehčila organizaci případných patentových nároků [8] .

Od roku 2010 je Hadoop opakovaně charakterizován jako klíčová technologie „ big data “, předpokládá se její široké využití pro masivně paralelní zpracování dat a spolu s Cloudera se objevila řada technologických startupů, které se zcela zaměřují na komercializaci Hadoopu. [9] [10] . V průběhu roku 2010 se několik dílčích projektů Hadoop - Avro , HBase , Hive , Pig , Zookeeper  - postupně stalo špičkovými projekty nadace Apache, které sloužily jako počátek formování ekosystému kolem Hadoopu . V březnu 2011 byla společnost Hadoop oceněna výroční cenou za inovaci Guardian Media Group , na které byla technologie jmenována „ Švýcarským armádním nožem 21. století“ [11] .

Implementace modulu YARN v Hadoopu 2.0, vydaného na podzim 2013, je hodnocena jako významný skok, který posouvá Hadoop za paradigma MapReduce a staví technologii na úroveň univerzálního řešení pro organizaci distribuovaného zpracování dat [12] .

Hadoop Common

Hadoop Common zahrnuje knihovny pro správu souborových systémů podporovaných Hadoopem a skripty pro vytváření potřebné infrastruktury a správu distribuovaného zpracování, pro jejichž pohodlí byl vytvořen specializovaný zjednodušený interpret příkazového řádku ( FS shell , souborový systém shell ), spouštěný z operačního systému. systémový shell s příkazem ve tvaru: , kde  je příkaz tlumočníka a  je seznam prostředků s předponou podporovaného typu systému souborů, jako je nebo . Většina příkazů interpretu je implementována analogicky s odpovídajícími unixovými příkazy (například , , , , , , , , , , navíc jsou podporovány některé klíče podobných unixových příkazů, například rekurzivní klíč pro , , ) , existují příkazy specifické pro Hadoop (například spočítá počet adresářů, souborů a bajtů v dané cestě, vyprázdní koš a upraví faktor replikace pro daný prostředek). hdfs dfs -command URIcommandURIhdfs://example.com/file1file:///tmp/local/file2catchmodchownchgrpcpdulsmkdirmvrmtail-Rchmodchownchgrpcountexpungesetrep

HDFS

HDFS ( Hadoop Distributed File System ) je souborový systém určený k ukládání velkých souborů distribuovaných blok po bloku mezi uzly výpočetního clusteru. Všechny bloky v HDFS (kromě posledního bloku souboru) mají stejnou velikost a každý blok lze umístit na více uzlů, velikost bloku a faktor replikace (počet uzlů, na které by měl být každý blok umístěn) jsou definovány v nastavení na úrovni souboru. Díky replikaci je zajištěna stabilita distribuovaného systému proti výpadkům jednotlivých uzlů. Soubory lze zapisovat do HDFS pouze jednou (úprava není podporována) a do souboru může zapisovat vždy pouze jeden proces. Organizace souborů ve jmenném prostoru je tradiční hierarchická : existuje kořenový adresář, je podporováno vnořování adresářů a soubory a další adresáře mohou být umístěny ve stejném adresáři.

Nasazení instance HDFS poskytuje centrální jmenný uzel ( eng.  name node ), ukládající metadata systému souborů a metainformace o distribuci bloků, a řadu datových uzlů ( eng.  data node ), přímo ukládající bloky souborů. Jmenný uzel je zodpovědný za zpracování operací na úrovni souborů a adresářů – otevírání a zavírání souborů, manipulaci s adresáři, datové uzly přímo zpracovávají operace zápisu a čtení dat. Názvový uzel a datové uzly jsou vybaveny webovými servery , které zobrazují aktuální stav uzlů a umožňují zobrazit obsah systému souborů. Administrativní funkce jsou dostupné z rozhraní příkazového řádku.

HDFS je nedílnou součástí projektu, nicméně Hadoop podporuje práci s dalšími distribuovanými souborovými systémy bez použití HDFS, v hlavní distribuci je implementována podpora pro Amazon S3 a CloudStore . Na druhou stranu lze HDFS použít nejen ke spouštění úloh MapReduce, ale také jako univerzální distribuovaný souborový systém, konkrétně je nad ním implementován distribuovaný NoSQL DBMS HBase a škálovatelný Apache Mahout systém strojového učení běží ve svém prostředí .

PŘÍZE

YARN ( anglicky  Yet Another Resource Negotiator  - „ další zprostředkovatel zdrojů “) je modul, který se objevil ve verzi 2.0 (2013), který je zodpovědný za správu zdrojů clusteru a plánování úloh. Pokud byla v předchozích verzích tato funkce integrována do modulu MapReduce , kde byla implementována jedinou komponentou ( JobTracker ), pak v YARN existuje logicky nezávislý démon  - plánovač zdrojů ( ResourceManager ), který abstrahuje všechny výpočetní zdroje cluster a spravuje jejich poskytování aplikacím distribuovaného zpracování. Jak programy MapReduce, tak jakékoli jiné distribuované aplikace, které podporují vhodná programovací rozhraní, mohou pracovat pod kontrolou YARN; YARN poskytuje možnost paralelního provádění několika různých úkolů v rámci clusteru a jejich izolaci (podle principů multitenancy ). Vývojář distribuovaných aplikací potřebuje implementovat speciální třídu správy aplikací ( ApplicationMaster ), která je zodpovědná za koordinaci úloh v rámci zdrojů poskytovaných plánovačem zdrojů; plánovač zdrojů je zodpovědný za vytváření instancí třídy řízení aplikací a interakci s ní prostřednictvím příslušného síťového protokolu.

YARN lze považovat za klastrový operační systém v tom smyslu, že funguje jako rozhraní mezi hardwarovými prostředky klastru a širokou třídou aplikací, které využívají jeho výkon k provádění výpočetního zpracování [13] .

Hadoop MapReduce

Hadoop MapReduce  je softwarový rámec pro programování distribuovaných výpočtů v rámci paradigmatu MapReduce . Vývojář aplikace pro Hadoop MapReduce potřebuje implementovat základní obslužný program, který na každém výpočetním uzlu clusteru zajistí transformaci počátečních párů klíč-hodnota na přechodnou sadu párů klíč-hodnota (třída, která implementuje rozhraní, Mapperje pojmenovaná po funkci vyššího řádu Map ) a handler , který redukuje prostřední sadu párů na konečnou, redukovanou množinu ( fold , třída, která implementuje rozhraní Reducer). Framework předává setříděné výstupy ze základních handlerů na vstup konvoluce, redukce se skládá ze tří fází - shuffle ( shuffle , výběr požadované sekce výstupu), sort ( třídění , seskupování podle klíčů výstupů od distributorů - dodatečné třídění, které je nutné, když různé atomové procesory vracejí sady se stejnými klíči, zároveň lze třídicí pravidla v této fázi nastavit programově a využívat libovolné vlastnosti vnitřní struktury klíčů) a zmenšovat se ( skládání seznamu ) - získání sady výsledků. U některých typů zpracování není skládání vyžadováno a framework v tomto případě vrací sadu seřazených párů přijatých základními procesory.

Hadoop MapReduce vám umožňuje vytvářet úlohy se základními obslužnými rutinami i záhyby napsanými bez použití Javy: Streamovací nástroje Hadoop vám umožňují použít jakýkoli spustitelný soubor , který pracuje se standardním I/O operačním systémem (například obslužné programy prostředí UNIX ), jako základní obslužné nástroje a záhyby ), existuje také SWIG - kompatibilní C++ Hadoop pipes API . Distribuce Hadoop také zahrnují implementace různých konkrétních základních procesorů a souhrnů, které se nejčastěji používají v distribuovaném zpracování.

V prvních verzích Hadoop MapReduce obsahoval plánovač úloh ( JobTracker ), od verze 2.0 byla tato funkce přesunuta do YARN a od této verze je nad YARN implementován modul Hadoop MapReduce. Programovací rozhraní jsou většinou zachována, ale není zde úplná zpětná kompatibilita (to znamená pro spouštění programů napsaných pro předchozí verze API , pro práci v YARN je obecně nutná jejich úprava nebo refaktoring , a to pouze s určitými omezeními jsou možné možnosti zpětné binární kompatibility [14 ] ).

Škálovatelnost

Jedním z hlavních cílů Hadoopu bylo zpočátku poskytovat horizontální škálovatelnost clusteru přidáním levných uzlů (masové vybavení, anglický  komoditní hardware ), aniž by bylo nutné používat výkonné servery a drahé úložné sítě . Funkční clustery o velikosti tisíců uzlů potvrzují proveditelnost a nákladovou efektivitu takových systémů, například od roku 2011 jsou známy velké clustery Hadoop v Yahoo (více než 4 tisíce uzlů s celkovou úložnou kapacitou 15 PB), Facebook (asi 2 tisíce uzlů na 21 PB) a Ebay (700 uzlů na 16 PB) [15] . Předpokládá se však, že horizontální škálovatelnost v systémech Hadoop je omezená, pro Hadoop před verzí 2.0 se maximální možné odhadovalo na 4 tisíce uzlů při použití 10 úloh MapReduce na uzel [16] . V mnoha ohledech bylo toto omezení usnadněno koncentrací funkcí pro sledování životního cyklu pracovních míst v modulu MapReduce, má se za to, že jeho odstraněním do modulu YARN v Hadoop 2.0 a decentralizace - distribuce části monitorovacích funkcí na zpracovatelské uzly – zvýšila se horizontální škálovatelnost.

Dalším omezením Hadoop systémů je velikost RAM na jmenném uzlu ( NameNode ), kde je uložen celý jmenný prostor clusteru pro zpracování distribuce, navíc celkový počet souborů, které je jmenný uzel schopen zpracovat, je 100 milionů [17] . K překonání tohoto omezení se pracuje na distribuci názvu uzlu, který je v současné architektuře běžný pro celý cluster, do několika nezávislých uzlů. Další možností, jak toto omezení překonat, je použití distribuovaného DBMS nad HDFS, jako je HBase , ve kterém roli souborů a adresářů hrají z pohledu aplikace záznamy v jedné velké databázové tabulce.

Od roku 2011 byl typický cluster vytvořen z jednosocketových vícejádrových x86-64 uzlů se systémem Linux s 3-12 diskovými úložnými zařízeními připojenými k síti 1 Gb/s. Existují trendy jak snižovat výpočetní výkon uzlů a používat procesory s nízkou spotřebou ( ARM , Intel Atom ) [18] , tak používání vysoce výkonných výpočetních uzlů současně s řešeními širokopásmových sítí ( InfiniBand v Oracle Big Data Zařízení , vysoce výkonný 10Gb/s Fibre Channel a Ethernet SAN v konfiguracích šablon velkých dat FlexPod ).

Škálovatelnost systémů Hadoop do značné míry závisí na vlastnostech zpracovávaných dat, především na jejich vnitřní struktuře a vlastnostech pro extrakci potřebných informací z nich a na složitosti úlohy zpracování, která zase diktuje organizaci cykly zpracování, výpočetní náročnost atomových operací a v konečném důsledku i úroveň paralelismu a zatížení klastrů. Manuál Hadoop (první verze, před 2.0) uváděl, že přijatelnou úrovní paralelismu je použití 10-100 instancí základních procesorů na uzel clusteru a pro úlohy, které nevyžadují významný čas CPU - až 300; pro konvoluce se považovalo za optimální použít je počtem uzlů vynásobeným koeficientem z rozsahu od 0,95 do 1,75 a konstantou mapred.tasktracker.reduce.tasks.maximum. S vyšší hodnotou koeficientu nejrychlejší uzly, které dokončily první kolo konvergence, obdrží druhou část mezilehlých párů ke zpracování dříve, takže zvýšení koeficientu přetíží shluk, ale zároveň poskytuje efektivnější vyvažování zátěže . YARN místo toho používá konfigurační konstanty, které určují hodnoty dostupné paměti RAM a jader virtuálních procesorů dostupných pro plánovač zdrojů [19] , na základě kterých se určuje úroveň paralelismu.

Ekosystém

Komercializace

Na pozadí popularizace Hadoopu v roce 2008 a zpráv o budování klastrů Hadoop na Yahoo a Facebooku byla v říjnu 2008 vytvořena Cloudera , vedená Michaelem Olsonem, bývalým generálním ředitelem společnosti Sleepycat (společnost, která vytvořila Berkeley DB ), plně zaměřená na komercializace Hadoop technologií. V září 2009 se hlavní vývojář Hadoop Doug Cutting přestěhoval do Cloudery z Yahoo a díky tomuto přechodu komentátoři označili Cloudera za „nového nositele standardu Hadoop“, a to navzdory skutečnosti, že většinu projektu stále vytvářeli zaměstnanci společnosti Facebook a Yahoo [20] . MapR byla založena v roce 2009 s cílem vytvořit vysoce výkonnou verzi distribuce Hadoop a dodávat ji jako proprietární software. V dubnu 2009 Amazon spustil Elastic MapReduce, cloudovou službu, která umožňuje předplatitelům vytvářet clustery Hadoop a spouštět na nich úlohy na základě času. Později jako alternativa dostali předplatitelé Amazon Elastic MapReduce na výběr mezi klasickou distribucí od Apache a distribucí od MapR.

V roce 2011 Yahoo oddělilo divizi, která vyvíjela a používala Hadoop, do samostatné společnosti - Hortonworks , brzy se nové společnosti podařilo uzavřít dohodu s Microsoftem o společném vývoji distribuce Hadoop pro Windows Azure a Windows Server [21] . Ve stejném roce, kdy se Hadoop objevil jako jedna ze základních technologií velkých dat, prakticky všichni hlavní dodavatelé technologického softwaru pro organizace zahrnuli technologie Hadoop v té či oné podobě do svých strategií a produktových řad. Oracle tedy vydal hardwarově-softwarový komplex zařízení Big Data (předem sestavený v telekomunikační skříni a předkonfigurovaný cluster Hadoop s distribuční sadou od Cloudera) [22] , IBM vytvořilo produkt BigInsights založený na distribuční sadě Apache [ 23] , EMC licencovala od MapR jejich vysoce výkonný Hadoop pro integraci do produktů nedávno získané společnosti Greenplum [24] (tato obchodní jednotka byla později vyčleněna do samostatné společnosti Pivotal , která se přesunula do zcela nezávislé distribuce Hadoop na základě kódu Apache [25] ), Teradata uzavřela smlouvu s Hortonworks na integraci Hadoop do zařízení Aster Big Analytics [26] . V roce 2013 Intel vytvořil vlastní distribuci Hadoop [27] , o rok později upustil od svého vývoje ve prospěch řešení od Cloudery, ve které získal 18% podíl [28] .

Objem trhu se softwarem a službami kolem ekosystému Hadoop pro rok 2012 se odhaduje na 540 milionů USD s prognózou růstu na 1,6 miliardy USD do roku 2017, lídry trhu jsou kalifornské startupy Cloudera, MapR a Hortonworks [29] . Kromě nich jsou také firmy Hadapt (převzaté v červenci 2014 Teradata [30] ), Datameer , Karmasphere a Platfora, které celé své podnikání staví na vytváření produktů, které poskytují systémům Hadoop analytické schopnosti [31] .

Kritika

Poznámky

  1. https://archive.apache.org/dist/hadoop/common/
  2. Vance, 2009 , Ovládá nejlepší vyhledávače a určuje reklamy zobrazené vedle výsledků. Rozhoduje o tom, co lidé uvidí na domovské stránce Yahoo, a najde dlouho ztracené přátele na Facebooku.
  3. Dean, Jeffrey a Ghemawat, Sanjay. MapReduce: Zjednodušené zpracování dat na velkých klastrech  //  OSDI '04: 6. symposium o návrhu a implementaci operačních systémů. - USENIX , 2004. - S. 137-149 . - doi : 10.1145/1327452.1327492 . Archivováno z originálu 14. prosince 2011.
  4. 12 Řezání , Dougu. Hadoop: stručná historie  (anglicky)  (odkaz není k dispozici) . Yahoo! (24. března 2008). Získáno 25. prosince 2011. Archivováno z originálu 11. března 2012.
  5. Vance, 2009 , Doug Cutting s vycpaným slonem, který inspiroval název Hadoop.
  6. White, 2013 , V dubnu 2008 překonal Hadoop světový rekord a stal se nejrychlejším systémem pro třídění terabajtu dat. Hadoop běžící na clusteru s 910 uzly seřadil jeden terabajt za 209 sekund, pp. 10-11.
  7. Bílá, 2013 , do této doby Hadoop využívalo mnoho dalších společností kromě Yahoo!, jako Last.fm, Facebook a New York Times, str. deset.
  8. Metz, Cade Google požehnal Hadoop patentovou licencí MapReduce  (angl.)  (odkaz není k dispozici) . The Register (27. dubna 2010). Získáno 30. prosince 2011. Archivováno z originálu 11. března 2012.
  9. Metz, 2011 , Bylo však velmi zřejmé, velmi rychle, že schopnost spravovat 'Big Data' je ten největší problém, který musí CIO řešit… Bylo jasné, že Hadoop je způsob, jakým chtějí problém vyřešit“.
  10. Morrison, Alan a kol. Big Data: Jak z nich získat informace (odkaz není k dispozici) . Technologická předpověď. Čtvrtletník, ruské vydání, 2010 číslo 3 . PricewaterhouseCoopers (17. prosince 2010). "Začátkem roku 2010 Hadoop, MapReduce a jejich přidružené open source technologie poháněly zcela nový fenomén, který O'Reilly Media, The Economist a další nazvali velká data." Získáno 12. listopadu 2011. Archivováno z originálu 11. března 2012. 
  11. Winckler, Marie. Apache Hadoop získává hlavní cenu na Media Guardian Innovation Awards  (anglicky)  (odkaz není k dispozici) . The Guardian (25. března 2011). — „Apache Hadoop, označený porotou jako „švýcarský armádní nůž 21. století“, získal cenu inovátora roku za to, že má potenciál změnit tvář mediálních inovací.“ Získáno 25. prosince 2011. Archivováno z originálu 11. března 2012.
  12. Serdar Yegulalp. Hadoop 2: Velký skok vpřed pro velká data .  Hadoop 2.0 jde nad rámec MapReduce a vytváří obecný rámec pro distribuované aplikace pro zpracování dat . infosvět . IDG (16. října 2013) . Získáno 1. ledna 2014. Archivováno z originálu 16. prosince 2013.
  13. Toby Wolpe. Zakladatel Hortonworks: YARN je operační systém datového centra Hadoop . Arun Murthy jako vedoucí MapReduce a součást Hadoop od jeho počátku nabízí svůj pohled na význam YARN pro open-source projekt a podnikovou datovou  architekturu . ZDNet (31. října 2013) .  „Byl to systém, který vzal aplikaci od uživatele a spustil ji. Takže je to něco jako operační systém"". Získáno 1. ledna 2014. Archivováno z originálu 2. ledna 2014.
  14. Apache Hadoop MapReduce – Migrace z Apache Hadoop 1.x na Apache Hadoop 2.x. Apache Software Foundation (7. října 2013). Získáno 1. ledna 2014. Archivováno z originálu 2. ledna 2014.
  15. Shvachko, 2011 ,Původní text  (anglicky)[ zobrazitskrýt] Yahoo údajně provozovalo četné clustery s více než 4000 uzly se čtyřmi 1 TB disky na uzel, 15 PB celkovou úložnou kapacitou, 70 miliony souborů a 80 miliony bloků pomocí 50 GB haldy NameNode. Skladový cluster Facebooku s 2000 uzly je zřízen pro 21 PB celkové úložné kapacity. Extrapolací ohlášeného tempa růstu by jeho jmenný prostor měl mít nyní téměř 200 milionů objektů (souborů + bloků), ale obrovská hromada 108 GB by měla umožnit prostor pro téměř 400 milionů objektů. eBay provozuje cluster se 700 uzly. Každý uzel má 24 TB místního diskového úložiště, 72 GB RAM a 12jádrový procesor. Celková velikost clusteru je 16 PB .
  16. Shvachko, 2011 , Framework Apache Hadoop MapReduce údajně dosáhl svého limitu škálovatelnosti na 40 000 klientů současně běžících na clusteru. To odpovídá klastru se 4 000 uzly s 10 klienty MapReduce – sloty, v terminologii Hadoop – na uzel.
  17. Shvachko, 2011 , Aby bylo možné efektivně zpracovávat požadavky na metadata od tisíců klientů, NameNode uchovává celý jmenný prostor v paměti. Množství paměti RAM přidělené pro NameNode omezuje velikost clusteru <…> Aktuální limit jmenného prostoru je 100 milionů souborů.
  18. Derek Harris. Velká data na mikro serverech? Vsadíte se .  Online seznamovací služba eHarmony využívá specializované servery SeaMicro s procesorem Intel Atom jako základ své infrastruktury Hadoop, což dokazuje, že aplikace pro velké objemy dat, jako je Hadoop, mohou být zabijáckou aplikací pro mikroservery s nízkou spotřebou . Gigaom (13. června 2011) . Získáno 4. ledna 2014. Archivováno z originálu 22. prosince 2013.
  19. yarn.nodemanager.resource.memory-mb a yarn.nodemanager.resource.cpu-vcorespodle toho v konfiguračním souboru YARN
  20. Šikovný, Alexi. Tvůrce Hadoopu jde do Cloudera  (anglicky)  (downlink) . SD Times (9. října 2009). "Už nějakou dobu říkám, že Cloudera je společnost, která má banner Hadoop pevně v rukou, a to navzdory skutečnosti, že Yahoo i Facebook přispívají do projektu horami kódu." Získáno 25. prosince 2011. Archivováno z originálu 11. března 2012.
  21. Mary Jo Foley. Hortonworks dodává beta verzi platformy Hadoop pro velká data pro Windows . Beta testerům je k dispozici plně open source verze Hortonworks Data Platform pro Windows, vytvořená za přispění společnosti Microsoft.  (anglicky) . ZDNet (17. února 2013) .  - "V roce 2011 Microsoft oznámil, že uzavřel partnerství s Hortonworks za účelem vytvoření implementace jak Windows Azure, tak Windows Serveru rámce velkých dat Hadoop." Získáno 2. ledna 2014. Archivováno z originálu 3. ledna 2014.
  22. Timothy Prickett Morgan. Oracle uvádí vlastní NoSQL a Hadoop .  Nanejvýš sebevědomý Ellison nasedá na slona Big Data . The Register (3. října 2011) .  — „O ego ve společnosti Oracle není nouze, jak dokazuje výlev důvěry, který stojí za oznámením společnosti OpenWorld o nepříliš pokorně pojmenovaném Big Data Appliance.“ Získáno 2. ledna 2014. Archivováno z originálu 7. července 2017.
  23. Doug Henschen. IBM porazilo Oracle a Microsoft skokem ve velkých objemech dat . Platforma InfoSphere BigInsights založená na Hadoopu je spuštěna na infrastruktuře SmartCloud a poráží Oracle a Microsoft na  trhu . Informační týden (14. 10. 2011) . Získáno 2. ledna 2014. Archivováno z originálu 3. ledna 2014.
  24. Derek Harris. Startup MapR podporuje Hadoop úsilí EMC . Startup úložiště MapR z Kalifornie, který poskytuje vysoce výkonnou alternativu pro Hadoop Distributed File System, bude sloužit jako komponent úložiště pro nadcházející  distribuci EMC Greenplum HD Enterprise Edition Hadoop . Gigaom (25. května 2011) . Datum přístupu: 2. ledna 2014. Archivováno z originálu 2. ledna 2014.
  25. Timothy Pricket Morgan. Klíčové lodě stejnojmenné distro Hadoop pro masy .  Zvídavý HAWQ jezdí na velkém datovém slonovi . The Register (17. července 2013) .  „V návaznosti na získání paralelní databáze Greenplum a souvisejícího obchodu se zařízeními pro datové sklady před několika lety se EMC spojila s MapR Technologies, aby přeznačila vlastní verzi Hadoop na její variantu Greenplum HD. Ale s distribucí Pivotal HD 1.0 se spinoff EMC a VMware vrátil zpět k open source Apache Hadoop." Získáno 2. ledna 2014. Archivováno z originálu 3. ledna 2014.
  26. Jaikumar Vijayan. Společnost Teradata spolupracuje s Hortonworks na Hadoopu .  Dvě společnosti se spojí za účelem vývoje produktů a implementačních služeb . Computerworld (21. února 2012) . Získáno 2. ledna 2014. Archivováno z originálu 3. ledna 2014.
  27. Stacey Higginbotham. Cloudera kdo? Intel oznamuje svou vlastní distribuci Hadoop . Intel vstupuje do podnikání s otevřeným zdrojovým softwarem s vlastní verzí Hadoop. Připojuje se k řadě startupů a také k EMC Greenplum při budování distribuce pro velká  data . Gigaom (26. února 2013) . Získáno 3. ledna 2014. Archivováno z originálu 2. ledna 2014.
  28. Harris, Dereck Intel zahazuje svou distro Hadoop a dává miliony za  Cloudera . Gigaom (27. března 2014). Získáno 1. dubna 2014. Archivováno z originálu 30. března 2014.
  29. John Furier. Vysvětlení obchodních modelů Hadoop Pure-Play  . Forbes (19. prosince 2013). Získáno 2. ledna 2014. Archivováno z originálu 3. ledna 2014.
  30. Doug Henschen. Teradata kupuje Hadapt, Revelytix pro Big Data Boost . Společnost Teradata přidává možnosti přípravy dat, správy dat a analýzy dat zakoupením dvou pozoruhodných nezávislých v aréně velkých dat . Informační týden (22. července 2014) . Získáno 1. listopadu 2014. Archivováno z originálu 1. listopadu 2014.
  31. Doug Henschen. 13 velkých dodavatelů dat, které je třeba sledovat v roce 2013 . Od Amazonu po Splunk, zde je pohled na inovátory velkých dat, kteří nyní posouvají Hadoop, NoSQL a analýzu velkých dat na další úroveň . Informační týden (10. 12. 2012) .  — „Hadapt přináší do Hadoopu relační analytiku <…> Hadapt je v dobré společnosti, přičemž Cloudera (Impala), Datameer, Karmasphere, Platfora a další pracují na různých způsobech, jak čelit stejné výzvě analýzy na Hadoopu.“ Získáno 2. ledna 2014. Archivováno z originálu 3. ledna 2014.

Literatura

Odkazy