Společnost Cloudera Inc. | |
---|---|
Typ | veřejná společnost |
Výpis na burze | NYSE : CLDR |
Základna | 2009 |
Zakladatelé |
Christophe Biscilla, Amr Awadalla, Jeffrey Hammerbacher, Michael Olson |
Umístění | Spojené státy :Palo Alto |
Klíčové postavy |
Reilly, Tom (CEO), Doug Cutting (hlavní architekt) |
Průmysl | vývoj softwaru ( ISIC :) 6201 |
produkty | Komerční verze Hadoop , Cloudera Impala |
obrat | ▲ 301 milionů $ (2018) |
Provozní zisk | ▼ −389 milionů $ (ztráta, 2018) |
Čistý zisk | ▼ −386 milionů $ (ztráta, 2018) |
Kapitalizace | 2,66 miliardy $ (7. září 2018) [1] |
webová stránka | cloudera.com |
Mediální soubory na Wikimedia Commons |
Cloudera je americká společnost, která vyvíjí distribuce Apache Hadoop a řadu softwarových produktů pro ekosystém Hadoop .
Obchodní model společnosti byl přirovnáván k podnikání společnosti Red Hat – Cloudera vytváří distribuce softwarových produktů pro organizace založené na svobodném softwaru a vytváří zisk poskytováním technické podpory pro dodávaná řešení [2] [3] . S rozmachem technologií „ big data “ byla Cloudera opakovaně uznávána jako jedna z nejslibnějších společností schopných řešit problémy ve své třídě [4] [5] .
V roce 2018 pohltila hlavního konkurenta na distribučním trhu Hadoop, americkou společnost Hortonworks .
Společnost byla založena v říjnu 2008 v Burlingame ( Kalifornie ) s počátečním kapitálem 5 milionů $, hlavním cílem podnikání byla komercializace projektu Hadoop . Zakladateli společnosti jsou Christophe Bischiglia , který dříve pracoval ve společnosti Google , Amr Awadallah ( Amr Awadallah , viceprezident Yahoo Corporation , zodpovědný za analytické systémy a ukládání dat), Jeffrey Hammerbacher ( Jeff Hammerbacher , projektový manažer Hive na Facebooku ) a Michael Olson , viceprezident společnosti Oracle Corporation , dříve CEO společnosti Sleepecat , která vyvinula a vyvinula Berkeley DB a byla v roce 2006 pohlcena společností Oracle) [6] . Hammerbacher zajistil počáteční financování projektu od Accel Partners , přičemž Olson převzal společnost. Celkem se v počáteční fázi vybralo 11 milionů dolarů a mezi investory jsou kromě Accelu uvedeni Greylock Partners a business angels Gideon Yu a Caterina Fake [ 7 ] .
Mezi zaměstnanci najatými v prvních měsících byli tvůrci Hadoop Doug Cutting a Mike Cafarella , bývalí generální ředitelé společností VMware ( Diane Green ) a MySQL AB ( Marten Mikos ) [8] . Díky přesunu Cuttingu do Cloudery byla společnost popsána jako „nový vlajkonoš Hadoop“ [9] .
V roce 2009 se Biscilla umístila na pátém místě v seznamu Top 22 Young Tech Entrepreneurs časopisu Businessweek [10] a Hammerbacher se v roce 2010 umístil na sedmém místě (z 15) . V nominaci Biscilla byla Cloudera popsána jako servisní společnost poskytující technické poradenství ohledně Hadoopu, zatímco Hammerbacherův příspěvek v roce 2010 byl zaznamenán jako transformace podnikání společnosti, což z ní činí poskytovatele replikovatelného softwaru pro organizace [11] .
V listopadu 2011 společnost získala další finance ve výši 40 milionů $ [12] , v prosinci 2012 - dalších 65 milionů $ [13] , mezi investory dalších kol jsou Ignition Partners , Greylock , Accel , Meritech Capital Partners a In -Q-Tel [ 14] [13] .
V říjnu 2012 společnost představila produkt Impala , který poskytuje SQL přístup k datům v clusteru řízeném Hadoopem, vzhled takového produktu byl přivítán jako překvapení, protože převládající rétorika společností zaměřená na „velká data "technologie" bylo opuštění tradičních technologií založených na SQL ( anglicky old SQL , v souladu se " starou školou " - old school ) [15] .
V červnu 2013 byl na pozici generálního ředitele pozván Tom Reilly , který předtím vedl dvě technologické společnosti k převzetí významnými hráči ( výrobce MDM systémů Trigo byl koupen IBM v roce 2004 a ArcSight byl přiveden na IPO a brzy pohlcen společností Hewlett-Packard v roce 2010) je událost hodnocena jako příprava buď na primární veřejnou nabídku, nebo na prodej podniku [16] . Olson přešel na post strategického ředitele a předsedy představenstva. V červenci 2013 firma převzala britskou společnost Myrryx , kterou založil Sean Owen , jeden z hlavních autorů škálovatelného rámce strojového učení v ekosystému Hadoop Apache Mahout , Owen byl oznámen jako „ředitel datové vědy “ ( anglický ředitel datové vědy ) [17] .
Do poloviny roku 2013 získala společnost v pěti kolech investic celkem 141 milionů $ [16] a v dalším kole v březnu 2014 získala společnost dalších 160 milionů $ [18] . V březnu 2014, po šestém kole investic, Intel získal 18% podíl ve společnosti za 740 milionů $, čímž ohodnotil podnikání Cloudery na přibližně 4 miliardy $ [19] ; Intel zároveň opustil vývoj vlastní distribuce Hadoop vytvořené o rok dříve ve prospěch propagace řešení od Cloudery [18] . V červnu 2014 společnost získala vývojáře technologie šifrování dat Gazzang [20] .
V dubnu 2017 společnost uspořádala první veřejnou nabídku na burze v New Yorku , v důsledku čehož získala 215 milionů $ [21] . Na podzim roku 2017 byla převzata newyorská firma strojového učení Fast Forward Labs, dohoda byla zaznamenána jako reakce na úzkou integraci Hortonworks s IBM, která klade důraz na vývoj systémů umělé inteligence v rámci programu Watson , a opustil svou distribuci Hadoop ve prospěch Hortonworks [22] .
V říjnu 2018 byla oznámena fúze s Hortonworks, přičemž struktura si ponechala jméno Cloudera, kotaci na burze a generálního ředitele a akcionáři Hortonworks získali 40 % akcií sloučené společnosti [23] . Transakce byla dokončena 3. ledna 2019, navzdory celkovému ocenění obou společností v době oznámení na 5,2 miliardy USD, po jeho dokončení činila kapitalizace spojeného obchodu přibližně 3 miliardy USD [24] . Převzetí ve skutečnosti dokončilo fázi konsolidace na trhu komerčních distribucí Hadoop (z ostatních významných účastníků trhu zůstala pouze MapR s ročním obratem asi 175 milionů $ v roce 2018), čímž se těžiště konkurence přesunula do širších segmentů. - nástroje pro velká data a analytické platformy [25] .
Na konci roku 2020 společnost odkoupila akcie od Intelu za 314 milionů $ (o 426 milionů $ méně než investice v roce 2014) [26] .
CDH ( Cloudera 's Distribution včetně Apache Hadoop ) je distribuce Apache Hadoop, která zahrnuje řadu souvisejících programů a knihoven a vlastní vývojové nástroje Cloudera, volně distribuované a komerčně podporované pro určité distribuce Linuxu ( Red Hat Enterprise Linux , CentOS , Ubuntu , SuSE SLES , Debian ). Mezi softwarové projekty Apache související s Hadoopem distribuce zahrnuje: Flume , HBase , Hive , Mahout , Oozie , Pig , Sqoop , Whirr , Zookeeper . Distribuce navíc obsahuje vlastní subsystém správy clusteru Cloudera Manager , který obsahuje skripty pro nasazení infrastruktury Hadoop jak v lokálním, tak cloudovém prostředí ( Rackspace , Amazon EC2 , Softlayer ), stejně jako utility a konfigurace pro podpora automatizace sestavení pomocí Apache Maven .
Začátkem roku 2012 byly dodávány dvě verze CDH, CDH2 (založená na Hadoop 0.20.1) a CDH3 (založená na Hadoop 0.20.2). Distribuce CDH3 je součástí dodávky hardwarového a softwarového komplexu zařízení Oracle Big Data [27] , navíc první linii zákaznické podpory pro Hadoop poskytuje Oracle Corporation a Cloudera poskytuje technickou podporu pro složitější problémy. V polovině roku 2012 byla vydána verze CDH4 založená na Hadoop 2.0 (včetně modulu YARN ), v CDH4 jsou také zahrnuty tři vlastní produkty společnosti - Hue (rozhraní prohlížeče pro správu clusteru Hadoop), Impala a Hledat (fulltextové a fasetové vyhledávání v prostředích HDFS a HBase ). V roce 2014 byla vydána verze CDH5; verze CDH6, vydaná na jaře 2018, je založena na Hadoop 3.0 (jehož klíčovou novinkou byla podpora kódování pro opravu chyb pro HDFS, které může výrazně snížit fyzickou velikost clusterů) [28] .
Cloudera Impala je masivně paralelní dotazovací stroj SQL pro data uložená v HDFS a HBase , distribuovaný pod licencí Apache 2.0 . Na rozdíl od Hive , který překládá dotazy v jazyce podobném SQL (HiveQL) do úloh MapReduce prováděných v dávkovém režimu, Impala provádí dotazy v distribuovaném prostředí interaktivně a rozděluje dotaz mezi zpracovatelské uzly na základě vlastního mechanismu, aniž by se uchýlil k MapReduce.
Cloudera Manager je specializovaná komponenta, která umožňuje automatizovat vytváření a úpravy prostředí Hadoop, sledovat a analyzovat efektivitu zpracování úloh, nastavovat upozornění na výskyt určitých událostí souvisejících s provozem infrastruktury distribuovaného zpracování. Roční náklady na technickou podporu jsou asi 4 000 USD na uzel clusteru [29] . K dispozici je bezplatná edice pro Cloudera Manager ( anglicky free edition ), která funguje pouze na clusterech skládajících se z méně než 50 uzlů a postrádá řadu funkcí dostupných komerčním předplatitelům (jako je sledování výkonu, verzování konfigurace, podpora Kerberos ).
V návaznosti na předpovědi společnosti Garnter v cyklu humbuku technologie správy dat v roce 2017, že samotný koncept „distribuce Hadoop“ brzy přestane být zastaralý, přesunula společnost svou produktovou nabídku na tematické sady, složené z prakticky stejných komponent, které jsou sestaveny v CDH, ale zaměřené na určité specifické úkoly. V roce 2018 se tedy produkty objevily pod názvy Data Warehouse (sestavení pro datové sklady , se zaměřením na Impala), Operational DB (pro provozní databáze, kolem HBase , Kudu a Spark ), Data Engineering (pro ETL a interaktivní přístup k datům), Data Science (pro úkoly " data science " ), Enterprise Data Hub (pro podnikové datové platformy - ve skutečnosti kompletní sestava distribuce Hadoop plus datový katalog založený na vlastní SDX komponentě).
Od roku 2018 se cenová politika formuje kolem tematických produktů; V závislosti na konfiguraci platí předplatitelé ročně od 4 000 USD za podporu každého produktového uzlu Data Engineering a Data Science do 10 000 USD za uzel produktu Enterprise Data Hub.