Apache Arrow - Apache Arrow

Apache Arrow
VývojářiSoftwarová nadace Apache
První vydání10. října 2016; Před 4 lety (2016-10-10)
Stabilní uvolnění
v2.0.0[1] / 12. října 2020; Před 47 dny (2020-10-12)
Úložištěhttps://github.com/apache/arrow
NapsánoC, C ++, C#, Jít, Jáva, JavaScript, MATLAB, Krajta, R, Rubín, Rez
TypDatový formát, algoritmy
LicenceLicence Apache 2.0
webová stránkaŠíp.apache.org

Apache Arrow je jazykově agnostický softwarový rámec pro vývoj aplikací pro analýzu dat, které zpracovávají sloupcové údaje. Obsahuje standardizovaný formát paměti orientovaný na sloupec, který je schopen reprezentovat plochá a hierarchická data pro efektivní analytické operace na moderních procesor a GPU Hardware.[2][3][4][5][6] To snižuje nebo eliminuje faktory, které omezují proveditelnost práce s velkými soubory dat, jako jsou náklady, volatilita nebo fyzická omezení dynamická paměť s náhodným přístupem.[7]

Interoperabilita

Šipku lze použít s Apache Parkety, Apache Spark, NumPy, PySpark, pandy a další knihovny pro zpracování dat. Projekt zahrnuje nativní softwarové knihovny napsáno v C ++, C # .NET, Go, Java, JavaScript a Rust s vazby pro ostatní programovací jazyky, například Krajta, R a Ruby. Šipka umožňuje čtení nulové kopie a rychlý přístup a výměnu dat bez režie serializace mezi těmito jazyky a systémy.[2]

Aplikace

Arrow se používá v různých doménách, včetně analytiky,[8] genomika,[9][7] a cloud computing.[10]

Srovnání s Apache Parquet a ORC

Apache Parquet a Apache ORC jsou populární příklady sloupcových datových formátů na disku. Arrow je navržen jako doplněk těchto formátů pro zpracování dat v paměti.[11] Kompenzace hardwarových prostředků pro zpracování v paměti se liší od těch, které jsou spojeny s úložištěm na disku.[12] Projekty Arrow a Parquet zahrnují knihovny, které umožňují čtení a zápis dat mezi těmito dvěma formáty.[13]

Správa věcí veřejných

Apache Arrow oznámil Softwarová nadace Apache dne 17. února 2016,[14] s vývojem vedeným koalicí vývojářů z jiných open source datových analytických projektů.[15][16][6][17][18] Počáteční codebase a Java knihovna byla nasazena kódem z Apache Drill.[14]

Reference

  1. ^ „Vydání Arrow Github“.
  2. ^ A b „Apache Arrow and Distributed Compute with Kubernetes“. 13. prosince 2018.
  3. ^ Baer, ​​Tony (17. února 2016). „Apache Arrow: Seřazení kachen v řadě ... nebo sloupci“. Hledám Alfu.
  4. ^ Baer, ​​Tony (25. února 2019). „Apache Arrow: Malý datový akcelerátor, který by mohl“. ZDNet.
  5. ^ Hall, Susan (23. února 2016). „Sloupcové rozložení dat Apache Arrow by mohlo urychlit Hadoop, Spark“. The New Stack.
  6. ^ A b Yegulalp, Serdar (27. února 2016). „Apache Arrow si klade za cíl urychlit přístup k velkým datům“. InfoWorld.
  7. ^ A b Tanveer Ahmad (2019). „ArrowSAM: Zpracování dat genomiky v paměti prostřednictvím Apache Arrow Framework“. bioRxiv: 741843. doi:10.1101/741843.
  8. ^ Dinsmore T.W. (2016). "Analýza v paměti". Analýza v paměti. In: Disruptive Analytics. Apress, Berkeley, CA. 97–116. doi:10.1007/978-1-4842-1311-7_5. ISBN  978-1-4842-1312-4.
  9. ^ Versaci F, Pireddu L, Zanetti G (2016). „Scalable genomics: from raw data to aligned reads on Apache YARN“ (PDF). Mezinárodní konference IEEE o velkých datech: 1232–1241.
  10. ^ Maas M, Asanović K, Kubiatowicz J (2017). „Return of the runtimes: rethinking the language runtime system for the cloud 3.0 era“ (PDF). Sborník ze 16. semináře o aktuálních tématech v operačních systémech (ACM): 138–143. doi:10.1145/3102980.3103003.
  11. ^ Le Dem, Julien. „Šipka Apache a Apache Parkety: Proč jsme potřebovali různé projekty pro sloupová data, na disk a v paměti“. KDnuggets.
  12. ^ „Apache Arrow vs. Parquet a ORC: Opravdu potřebujeme třetí projekt Apache pro reprezentaci sloupcových dat?“. 2017-10-31.
  13. ^ "PyArrow: Čtení a zápis formátu parketů Apache".
  14. ^ A b „Softwarová nadace Apache® oznamuje Apache Arrow ™ jako projekt nejvyšší úrovně“. Blog Apache Software Foundation.
  15. ^ Martin, Alexander J. (17. února 2016). „Nadace Apache vyháněla Apache Arrow jako projekt nejvyšší úrovně“. Registrace.
  16. ^ „Big data získává nový open-source projekt, Apache Arrow: Nabízí více než stokrát vylepšení výkonu u analytických úloh, říká nadace“. 2016-02-17.
  17. ^ Le Dem, Julien (28. listopadu 2016). „První vydání Apache Arrow“. SD Times.
  18. ^ „Julien Le Dem o budoucnosti zpracování sloupových dat pomocí Apache Arrow“.

externí odkazy