Apache Arrow - Apache Arrow
Vývojáři | Softwarová nadace Apache |
---|---|
První vydání | 10. října 2016 |
Stabilní uvolnění | v2.0.0[1] / 12. října 2020 |
Úložiště | https://github.com/apache/arrow |
Napsáno | C, C ++, C#, Jít, Jáva, JavaScript, MATLAB, Krajta, R, Rubín, Rez |
Typ | Datový formát, algoritmy |
Licence | Licence Apache 2.0 |
webová stránka | Šíp |
Apache Arrow je jazykově agnostický softwarový rámec pro vývoj aplikací pro analýzu dat, které zpracovávají sloupcové údaje. Obsahuje standardizovaný formát paměti orientovaný na sloupec, který je schopen reprezentovat plochá a hierarchická data pro efektivní analytické operace na moderních procesor a GPU Hardware.[2][3][4][5][6] To snižuje nebo eliminuje faktory, které omezují proveditelnost práce s velkými soubory dat, jako jsou náklady, volatilita nebo fyzická omezení dynamická paměť s náhodným přístupem.[7]
Interoperabilita
Šipku lze použít s Apache Parkety, Apache Spark, NumPy, PySpark, pandy a další knihovny pro zpracování dat. Projekt zahrnuje nativní softwarové knihovny napsáno v C ++, C # .NET, Go, Java, JavaScript a Rust s vazby pro ostatní programovací jazyky, například Krajta, R a Ruby. Šipka umožňuje čtení nulové kopie a rychlý přístup a výměnu dat bez režie serializace mezi těmito jazyky a systémy.[2]
Aplikace
Arrow se používá v různých doménách, včetně analytiky,[8] genomika,[9][7] a cloud computing.[10]
Srovnání s Apache Parquet a ORC
Apache Parquet a Apache ORC jsou populární příklady sloupcových datových formátů na disku. Arrow je navržen jako doplněk těchto formátů pro zpracování dat v paměti.[11] Kompenzace hardwarových prostředků pro zpracování v paměti se liší od těch, které jsou spojeny s úložištěm na disku.[12] Projekty Arrow a Parquet zahrnují knihovny, které umožňují čtení a zápis dat mezi těmito dvěma formáty.[13]
Správa věcí veřejných
Apache Arrow oznámil Softwarová nadace Apache dne 17. února 2016,[14] s vývojem vedeným koalicí vývojářů z jiných open source datových analytických projektů.[15][16][6][17][18] Počáteční codebase a Java knihovna byla nasazena kódem z Apache Drill.[14]
Reference
- ^ „Vydání Arrow Github“.
- ^ A b „Apache Arrow and Distributed Compute with Kubernetes“. 13. prosince 2018.
- ^ Baer, Tony (17. února 2016). „Apache Arrow: Seřazení kachen v řadě ... nebo sloupci“. Hledám Alfu.
- ^ Baer, Tony (25. února 2019). „Apache Arrow: Malý datový akcelerátor, který by mohl“. ZDNet.
- ^ Hall, Susan (23. února 2016). „Sloupcové rozložení dat Apache Arrow by mohlo urychlit Hadoop, Spark“. The New Stack.
- ^ A b Yegulalp, Serdar (27. února 2016). „Apache Arrow si klade za cíl urychlit přístup k velkým datům“. InfoWorld.
- ^ A b Tanveer Ahmad (2019). „ArrowSAM: Zpracování dat genomiky v paměti prostřednictvím Apache Arrow Framework“. bioRxiv: 741843. doi:10.1101/741843.
- ^ Dinsmore T.W. (2016). "Analýza v paměti". Analýza v paměti. In: Disruptive Analytics. Apress, Berkeley, CA. 97–116. doi:10.1007/978-1-4842-1311-7_5. ISBN 978-1-4842-1312-4.
- ^ Versaci F, Pireddu L, Zanetti G (2016). „Scalable genomics: from raw data to aligned reads on Apache YARN“ (PDF). Mezinárodní konference IEEE o velkých datech: 1232–1241.
- ^ Maas M, Asanović K, Kubiatowicz J (2017). „Return of the runtimes: rethinking the language runtime system for the cloud 3.0 era“ (PDF). Sborník ze 16. semináře o aktuálních tématech v operačních systémech (ACM): 138–143. doi:10.1145/3102980.3103003.
- ^ Le Dem, Julien. „Šipka Apache a Apache Parkety: Proč jsme potřebovali různé projekty pro sloupová data, na disk a v paměti“. KDnuggets.
- ^ „Apache Arrow vs. Parquet a ORC: Opravdu potřebujeme třetí projekt Apache pro reprezentaci sloupcových dat?“. 2017-10-31.
- ^ "PyArrow: Čtení a zápis formátu parketů Apache".
- ^ A b „Softwarová nadace Apache® oznamuje Apache Arrow ™ jako projekt nejvyšší úrovně“. Blog Apache Software Foundation.
- ^ Martin, Alexander J. (17. února 2016). „Nadace Apache vyháněla Apache Arrow jako projekt nejvyšší úrovně“. Registrace.
- ^ „Big data získává nový open-source projekt, Apache Arrow: Nabízí více než stokrát vylepšení výkonu u analytických úloh, říká nadace“. 2016-02-17.
- ^ Le Dem, Julien (28. listopadu 2016). „První vydání Apache Arrow“. SD Times.
- ^ „Julien Le Dem o budoucnosti zpracování sloupových dat pomocí Apache Arrow“.
externí odkazy
- Apache Arrow webové stránky projektu
- Apache Arrow GitHub zdrojový kód projektu