Apache Spark

Apache Spark

Typ	framework , framework pro podporu strojového učení [d] a cloud computing
Autor	Matei Zakharia [d]
Vývojář	Apache Software Foundation
Zapsáno v	Scala [2] [1] , Java [1] , Python [1] , R [1] , SQL [1] a Java Database Connectivity [1]
Operační systém	Microsoft Windows , Linux a macOS
První vydání	30. května 2014 a 1. března 2014 [1]
Hardwarová platforma	Java virtuální stroj
Nejnovější verze	3.3.0 ( 16. června 2022 ) [3]
Čitelné formáty souborů	JSON [4] , CSV [4] , textový soubor [4] , Apache Parquet [d] [4] , Optimalizovaný řádek sloupcový [d] [5] a Apache Avro [d] [6]
Vygenerované formáty souborů	CSV [5] , JSON [5] , Apache Parquet [d] [5] , Textový soubor [5] , Optimalizovaný řádek sloupcový [d] [5] a Apache Avro [d] [6]
Licence	Licence Apache 2.0 a BSD
webová stránka	spark.apache.org _
Mediální soubory na Wikimedia Commons

Apache Spark (z anglického spark - spark, flash) je open source framework pro implementaci distribuovaného zpracování nestrukturovaných a polostrukturovaných dat, který je součástí ekosystému projektů Hadoop . Na rozdíl od klasického procesoru z jádra Hadoop, který implementuje dvouúrovňový koncept MapReduce s ukládáním mezilehlých dat na disky, Spark pracuje v paradigmatu in-memory computingu - zpracovává data v RAM , díky čemuž umožňuje získat významnou zvýšení rychlosti u některých tříd problémů [7] , zejména možnost vícenásobného přístupu k uživatelským datům nahraným do paměti činí knihovnu atraktivní pro algoritmy strojového učení [8] .

Projekt poskytuje API pro Java , Scala , Python , R. Původně byl napsán ve Scale , od té doby bylo přidáno značné množství kódu Java, aby bylo možné psát programy přímo v Javě. Skládá se z jádra a několika rozšíření, jako je Spark SQL (umožňuje spouštět SQL dotazy na data), Spark Streaming (doplněk pro zpracování streamovaných dat), Spark MLlib (sada knihoven strojového učení), GraphX (navrženo pro distribuované zpracování grafů). Může fungovat jak v prostředí clusteru Hadoop se systémem YARN , tak bez základních komponent Hadoop, podporuje několik distribuovaných úložných systémů - HDFS , OpenStack Swift , NoSQL -DBMS Cassandra , Amazon S3 .

Klíčovým autorem je rumunsko-kanadský informatik Matei Zaharia , který na projektu začal pracovat v roce 2009 jako postgraduální student na University of California v Berkeley . V roce 2010 byl projekt publikován pod licencí BSD , v roce 2013 byl převeden na nadaci Apache a převeden pod licenci Apache 2.0 , v roce 2014 byl přijat jako projekt nejvyšší úrovně Apache. V roce 2022 získal projekt výroční cenu SIGMOD v kategorii Systémy [9] .

Poznámky

↑ 1 2 3 4 5 6 7 https://projects.apache.org/json/projects/spark.json
↑ Projekt apache-spark Open Source na Open Hub: Stránka jazyků - 2006.
↑ Vydání 3.3.0 – 2022.
↑ 1 2 3 4 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader
↑ 1 2 3 4 5 6 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter
↑ 1 2 https://spark.apache.org/docs/latest/sql-data-sources-avro.html
↑ Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ione. Shark: SQL and Rich Analytics at Scale (anglicky) : journal. - 2013. - Červen. Archivováno z originálu 9. srpna 2017.
↑ Matei Zaharia. Spark: In-Memory Cluster Computing pro iterativní a interaktivní aplikace . Archivováno 15. června 2016 na Wayback Machine
↑ Ocenění SIGMOD Systems 2022 . ACM (10. května 2022). Získáno 27. května 2022. Archivováno z originálu dne 15. června 2022. (neurčitý)

Literatura

H. Karau, E. Konwinski, P. Wendell, M. Zachariah. Learning Spark. Lightning Data Analysis = Learning Spark: Lightning-Fast Big Data Analytics (O'Reilly, 2015). - DMK Press , 2015. - 304 s. — ISBN 978-5-97060-323-9 .
S. Riza, W. Leatherson, S. Owen, D. Wills. Spark pro profesionály: Moderní vzory zpracování velkých dat = Pokročilá analytika se Sparkem. Vzory pro učení z dat ve velkém měřítku (O'Reilly, 2015). - Petr , 2017. - 272 s. - ISBN 978-5-496-02401-3 .
Warren R., Karau H. Efficient Spark. Škálování a optimalizace = High Performance Spark. Nejlepší postupy pro škálování a optimalizaci Apache Spark. - Petr, 2018. - 352 s. — ISBN 978-5-4461-0705-6 .