Apache Spark
Apache Spark |
---|
|
Typ |
framework , framework pro podporu strojového učení [d] a cloud computing |
Autor |
Matei Zakharia [d] |
Vývojář |
Apache Software Foundation |
Zapsáno v |
Scala [2] [1] , Java [1] , Python [1] , R [1] , SQL [1] a Java Database Connectivity [1] |
Operační systém |
Microsoft Windows , Linux a macOS |
První vydání |
30. května 2014 a 1. března 2014 [1] |
Hardwarová platforma |
Java virtuální stroj |
Nejnovější verze |
|
Čitelné formáty souborů |
JSON [4] , CSV [4] , textový soubor [4] , Apache Parquet [d] [4] , Optimalizovaný řádek sloupcový [d] [5] a Apache Avro [d] [6] |
Vygenerované formáty souborů |
CSV [5] , JSON [5] , Apache Parquet [d] [5] , Textový soubor [5] , Optimalizovaný řádek sloupcový [d] [5] a Apache Avro [d] [6] |
Licence |
Licence Apache 2.0 a BSD |
webová stránka |
spark.apache.org _ |
Mediální soubory na Wikimedia Commons |
Apache Spark (z anglického spark - spark, flash) je open source framework pro implementaci distribuovaného zpracování nestrukturovaných a polostrukturovaných dat, který je součástí ekosystému projektů Hadoop . Na rozdíl od klasického procesoru z jádra Hadoop, který implementuje dvouúrovňový koncept MapReduce s ukládáním mezilehlých dat na disky, Spark pracuje v paradigmatu in-memory computingu - zpracovává data v RAM , díky čemuž umožňuje získat významnou zvýšení rychlosti u některých tříd problémů [7] , zejména možnost vícenásobného přístupu k uživatelským datům nahraným do paměti činí knihovnu atraktivní pro algoritmy strojového učení [8] .
Projekt poskytuje API pro Java , Scala , Python , R. Původně byl napsán ve Scale , od té doby bylo přidáno značné množství kódu Java, aby bylo možné psát programy přímo v Javě. Skládá se z jádra a několika rozšíření, jako je Spark SQL (umožňuje spouštět SQL dotazy na data), Spark Streaming (doplněk pro zpracování streamovaných dat), Spark MLlib (sada knihoven strojového učení), GraphX (navrženo pro distribuované zpracování grafů). Může fungovat jak v prostředí clusteru Hadoop se systémem YARN , tak bez základních komponent Hadoop, podporuje několik distribuovaných úložných systémů - HDFS , OpenStack Swift , NoSQL -DBMS Cassandra , Amazon S3 .
Klíčovým autorem je rumunsko-kanadský informatik Matei Zaharia , který na projektu začal pracovat v roce 2009 jako postgraduální student na University of California v Berkeley . V roce 2010 byl projekt publikován pod licencí BSD , v roce 2013 byl převeden na nadaci Apache a převeden pod licenci Apache 2.0 , v roce 2014 byl přijat jako projekt nejvyšší úrovně Apache. V roce 2022 získal projekt výroční cenu SIGMOD v kategorii Systémy [9] .
Poznámky
- ↑ 1 2 3 4 5 6 7 https://projects.apache.org/json/projects/spark.json
- ↑ Projekt apache-spark Open Source na Open Hub: Stránka jazyků - 2006.
- ↑ Vydání 3.3.0 – 2022.
- ↑ 1 2 3 4 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameReader
- ↑ 1 2 3 4 5 6 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter
- ↑ 1 2 https://spark.apache.org/docs/latest/sql-data-sources-avro.html
- ↑ Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ione. Shark: SQL and Rich Analytics at Scale (anglicky) : journal. - 2013. - Červen. Archivováno z originálu 9. srpna 2017.
- ↑ Matei Zaharia. Spark: In-Memory Cluster Computing pro iterativní a interaktivní aplikace . Archivováno 15. června 2016 na Wayback Machine
- ↑ Ocenění SIGMOD Systems 2022 . ACM (10. května 2022). Získáno 27. května 2022. Archivováno z originálu dne 15. června 2022. (neurčitý)
Literatura
- H. Karau, E. Konwinski, P. Wendell, M. Zachariah. Learning Spark. Lightning Data Analysis = Learning Spark: Lightning-Fast Big Data Analytics (O'Reilly, 2015). - DMK Press , 2015. - 304 s. — ISBN 978-5-97060-323-9 .
- S. Riza, W. Leatherson, S. Owen, D. Wills. Spark pro profesionály: Moderní vzory zpracování velkých dat = Pokročilá analytika se Sparkem. Vzory pro učení z dat ve velkém měřítku (O'Reilly, 2015). - Petr , 2017. - 272 s. - ISBN 978-5-496-02401-3 .
- Warren R., Karau H. Efficient Spark. Škálování a optimalizace = High Performance Spark. Nejlepší postupy pro škálování a optimalizaci Apache Spark. - Petr, 2018. - 352 s. — ISBN 978-5-4461-0705-6 .
Odkazy
Tematické stránky |
|
---|
Apache Software Foundation |
---|
Projekty nejvyšší úrovně |
|
---|
Podprojekty | |
---|
Webové |
- Osa
- Osa2
- CXF
- WS-
- EWS
- JaxMe
- jUDDI
- kandula
- Mirae
- Muse
- Odebírat
- Sandesha
- skaut
- SOAP
- Synapse
- TSIK
- Toskánsko
- Woden
- WSIF
- WSRF
- WSS4J
- XML-RPC
|
---|
Jiné projekty |
|
---|
Rozvojové projekty ( Inkubátor ) |
- XAP
- řeka
- OpenEJB
- Otevřít JPA
- Graffito
- Toskánsko
- Log4Net
- Váleček
- Felix
- Abdera
- CeltiXfire
- FTP server
- heraldika
- břečťan
- džus
- Kabuki
- Lokahi
- Lucene.Net
- mod_ftp
- NMaven
- Ode
- stdcxx
- Woden
- WSRP4J
- Yoko
- WADI
- Qpid
- TripleSoup
- UIMA
- Adobe Flex
|
---|
Vyřazené projekty ( podkroví ) |
|
---|
|