Apache Spark

Apache Spark
Typ framework , framework pro podporu strojového učení [d] a cloud computing
Autor Matei Zakharia [d]
Vývojář Apache Software Foundation
Zapsáno v Scala [2] [1] , Java [1] , Python [1] , R [1] , SQL [1] a Java Database Connectivity [1]
Operační systém Microsoft Windows , Linux a macOS
První vydání 30. května 2014 a 1. března 2014 [1]
Hardwarová platforma Java virtuální stroj
Nejnovější verze
Čitelné formáty souborů JSON [4] , CSV [4] , textový soubor [4] , Apache Parquet [d] [4] , Optimalizovaný řádek sloupcový [d] [5] a Apache Avro [d] [6]
Vygenerované formáty souborů CSV [5] , JSON [5] , Apache Parquet [d] [5] , Textový soubor [5] , Optimalizovaný řádek sloupcový [d] [5] a Apache Avro [d] [6]
Licence Licence Apache 2.0 a BSD
webová stránka spark.apache.org
 Mediální soubory na Wikimedia Commons

Apache Spark (z anglického  spark  - spark, flash) je open source framework pro implementaci distribuovaného zpracování nestrukturovaných a polostrukturovaných dat, který je součástí ekosystému projektů Hadoop . Na rozdíl od klasického procesoru z jádra Hadoop, který implementuje dvouúrovňový koncept MapReduce s ukládáním mezilehlých dat na disky, Spark pracuje v paradigmatu in-memory computingu - zpracovává data v RAM , díky čemuž umožňuje získat významnou zvýšení rychlosti u některých tříd problémů [7] , zejména možnost vícenásobného přístupu k uživatelským datům nahraným do paměti činí knihovnu atraktivní pro algoritmy strojového učení [8] .  

Projekt poskytuje API pro Java , Scala , Python , R. Původně byl napsán ve Scale , od té doby bylo přidáno značné množství kódu Java, aby bylo možné psát programy přímo v Javě. Skládá se z jádra a několika rozšíření, jako je Spark SQL (umožňuje spouštět SQL dotazy na data), Spark Streaming (doplněk pro zpracování streamovaných dat), Spark MLlib (sada knihoven strojového učení), GraphX (navrženo pro distribuované zpracování grafů). Může fungovat jak v prostředí clusteru Hadoop se systémem YARN , tak bez základních komponent Hadoop, podporuje několik distribuovaných úložných systémů - HDFS , OpenStack Swift , NoSQL -DBMS Cassandra , Amazon S3 .

Klíčovým autorem je rumunsko-kanadský informatik Matei Zaharia , který na projektu začal pracovat v roce 2009 jako postgraduální student na University of California v Berkeley .  V roce 2010 byl projekt publikován pod licencí BSD , v roce 2013 byl převeden na nadaci Apache a převeden pod licenci Apache 2.0 , v roce 2014 byl přijat jako projekt nejvyšší úrovně Apache. V roce 2022 získal projekt výroční cenu SIGMOD v kategorii Systémy [9] .

Poznámky

  1. 1 2 3 4 5 6 7 https://projects.apache.org/json/projects/spark.json
  2. Projekt apache-spark Open Source na Open Hub: Stránka jazyků - 2006.
  3. Vydání 3.3.0 – 2022.
  4. 1 2 3 4 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader
  5. 1 2 3 4 5 6 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter
  6. 1 2 https://spark.apache.org/docs/latest/sql-data-sources-avro.html
  7. Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ione. Shark: SQL and Rich Analytics at Scale  (anglicky)  : journal. - 2013. - Červen. Archivováno z originálu 9. srpna 2017.
  8. Matei Zaharia. Spark: In-Memory Cluster Computing pro iterativní a interaktivní aplikace . Archivováno 15. června 2016 na Wayback Machine
  9. Ocenění SIGMOD Systems 2022 . ACM (10. května 2022). Získáno 27. května 2022. Archivováno z originálu dne 15. června 2022.

Literatura

Odkazy