Kaskádování (software) - Cascading (software)

Kaskádové
Stabilní uvolnění	3.1
Napsáno	Jáva
Licence	Licence Apache
webová stránka	http://www.cascading.org/

Kaskádové je software abstrakční vrstva pro Apache Hadoop a Apache Flink. Kaskádování se používá k vytváření a provádění komplexních pracovních postupů zpracování dat v clusteru Hadoop pomocí libovolného JVM -založený jazyk (Jáva, JRuby, Clojure atd.), skrývající základní složitost MapReduce pracovní místa. Je to open source a je k dispozici pod Licence Apache. Komerční podpora je k dispozici od společnosti Driven, Inc.^[1]

Autorem hry Cascading byl Chris Wensel, který později založil společnost Concurrent, Inc, která byla znovu označena jako Driven.^[2] Komunita aktivně vyvíjí kaskádování^{[Citace je zapotřebí ]} a řada doplňkových modulů je k dispozici.^[3]

Architektura

Chcete-li použít kaskádové, musí být nainstalován také Apache Hadoop a úloha Hadoop .jar musí obsahovat kaskádové .jars. Kaskádování se skládá z API pro zpracování dat, integračního API, plánovače procesů a plánovače procesů.

Kaskádování využívá škálovatelnost Hadoopu, ale odděluje standardní operace zpracování dat od podkladové mapy a snižuje úkoly.^[4]^{[je zapotřebí lepší zdroj ]} Vývojáři používají kaskádování k vytvoření souboru .jar, který popisuje požadované procesy. Sleduje paradigma „source-pipe-sink“, kde jsou data zachycena ze zdrojů, následuje opakovaně použitelné „trubky“, které provádějí procesy analýzy dat, kde jsou výsledky uloženy ve výstupních souborech nebo „propadech“. Potrubí jsou vytvářena nezávisle na datech, která budou zpracovávat. Jakmile je vázán na zdroje dat a propady, nazývá se to „tok“. Tyto toky lze seskupit do „kaskády“ a plánovač procesů zajistí, že daný tok nebude spuštěn, dokud nebudou splněny všechny jeho závislosti. Potrubí a toky lze znovu použít a změnit pořadí pro podporu různých obchodních potřeb.^[5]

Vývojáři píší kód v jazyce založeném na JVM a nemusí se učit MapReduce. Výsledný program může být regresně testován a integrován s externími aplikacemi jako každá jiná aplikace Java.^[6]

Kaskádování se nejčastěji používá pro cílení reklam, analýzu souborů protokolu, bioinformatiku, strojové učení, prediktivní analytika, těžba webového obsahu a extrakce, transformace a načítání (ETL) aplikací.^[7]

Použití kaskádování

Cascading byl v roce 2011 SD Times citován jako jeden z pěti nejvýkonnějších projektů Hadoop,^[8]^{[nespolehlivý zdroj? ]} jako významný open source projekt relevantní pro bioinformatiku^[9]^{[nespolehlivý zdroj? ]} a je obsažen v Hadoop: Definitivní průvodce, Tom White.^[10] Projekt byl také citován v rámci prezentací, sborníků z konference a setkání skupin uživatelů Hadoop jako užitečný nástroj pro práci s Hadoop^[11]^[12]^[13]^[14] a s Apache Spark^[15]

MultiTool zapnutý Webové služby Amazon byla vyvinuta pomocí kaskádování.^[16]
LogAnalyzer pro Amazon CloudFront byl vyvinut pomocí kaskádování.^[17]
BackType^[18] - platforma sociální analýzy
Etsy^[19] - tržiště
FlightCaster^[20] - předpovídání zpoždění letu
Ion Flux^[21] - analýza dat sekvence DNA
RapLeaf^[22] - systémy personalizace a doporučení
Razorfish^[23] - digitální reklama

Jazyky specifické pro doménu postavené na kaskádování

PyCascading^[24] - prostřednictvím Twitteru, k dispozici na GitHubu
Cascading.jruby^[25] - vyvinutý Gregoire Marabout, k dispozici na GitHub
Cascalog^[26] - autor Nathan Marz, k dispozici na GitHubu
Obarení^[27] - Scala API pro kaskádování. Usnadňuje přechod kaskádového / opaření kódu na Spark. Prostřednictvím Twitteru, k dispozici na GitHubu

Reference

^ Stránka kaskádové podpory
^ Driven, Inc.
^ "Kaskádové moduly". Archivovány od originál dne 11. 8. 2011. Citováno 2011-08-22.
^ Příspěvek na blogu od Etsy popisující jejich použití Cascading with Hadoop
^ Kaskádová uživatelská příručka Archivováno 6. února 2011, v Wayback Machine
^ Řízená stránka produktu
^ Domovská stránka
^ Handy, Alex (1. června 2011). „Pět nejlepších nejvýkonnějších projektů Hadoop“. SD Times. Citováno 26. října 2013.
^ Taylor, Ronald (21. prosince 2010). „Přehled rámce Hadoop / MapReduce / HBase a jeho současných aplikací v bioinformatice“. BioMed Central. Springer Science + Business Media. Citováno 26. října 2013.
^ White, Tom, „Hadoop: The Definitive Guide,“ O’Reilly Media, Inc., 2010, str. 539 - 549.
^ Nathan, Paco (Wikipedia: Paco Nathan ), Prezentace „Začínáme s Hadoopem“ pro SV Cloud Computing Meetup, 19. 7. 2010.
^ „Julio Guijarro, Steve Loughran a Paolo Castagna,“ Hadoop and beyond, „HP Labs, Bristol UK, 2008“ (PDF). Archivovány od originál (PDF) dne 01.10.2011. Citováno 2011-08-22.
^ Cross, Bradford, „Flightcaster_HUG“, prezentace ve skupině uživatelů Bay Area Hadoop, 26. března 2010
^ Curtin, Christopher, „NoSQL, Hadoop and Cascading“, červen 2010.
^ „Používání kaskádování k vytváření datově orientovaných aplikací ve Sparku“. Spark Summit 2014. 2014-05-07. Citováno 2016-03-25.
^ Cascading.Multitool na AWS
^ LogAnalyzer pro Amazon CloudFront
^ BackType blog Archivováno 25. srpna 2011, v Wayback Machine
^ Příspěvek na blogu od Etsy popisující jejich použití Cascading with Hadoop
^ FlightCaster
^ Ion Flux Archivováno 23. října 2011, v Wayback Machine
^ Blog RapLeaf Archivováno 1. února 2011, v Wayback Machine
^ Razorfish
^ [1]
^ Cascading.jruby
^ Cascalog
^ Obarení

externí odkazy

Oficiální webové stránky

[1] Stránka kaskádové podpory

[2] Driven, Inc.

[3] "Kaskádové moduly". Archivovány od originál dne 11. 8. 2011. Citováno 2011-08-22.

[4] Příspěvek na blogu od Etsy popisující jejich použití Cascading with Hadoop

[5] Kaskádová uživatelská příručka Archivováno 6. února 2011, v Wayback Machine

[6] Řízená stránka produktu

[7] Domovská stránka

[sdtimes1-8] Handy, Alex (1. června 2011). „Pět nejlepších nejvýkonnějších projektů Hadoop“. SD Times. Citováno 26. října 2013.

[biomedcent1-9] Taylor, Ronald (21. prosince 2010). „Přehled rámce Hadoop / MapReduce / HBase a jeho současných aplikací v bioinformatice“. BioMed Central. Springer Science + Business Media. Citováno 26. října 2013.

[10] White, Tom, „Hadoop: The Definitive Guide,“ O’Reilly Media, Inc., 2010, str. 539 - 549.

[11] Nathan, Paco (Wikipedia: Paco Nathan ), Prezentace „Začínáme s Hadoopem“ pro SV Cloud Computing Meetup, 19. 7. 2010.

[12] „Julio Guijarro, Steve Loughran a Paolo Castagna,“ Hadoop and beyond, „HP Labs, Bristol UK, 2008“ (PDF). Archivovány od originál (PDF) dne 01.10.2011. Citováno 2011-08-22.

[13] Cross, Bradford, „Flightcaster_HUG“, prezentace ve skupině uživatelů Bay Area Hadoop, 26. března 2010

[14] Curtin, Christopher, „NoSQL, Hadoop and Cascading“, červen 2010.

[15] „Používání kaskádování k vytváření datově orientovaných aplikací ve Sparku“. Spark Summit 2014. 2014-05-07. Citováno 2016-03-25.

[16] Cascading.Multitool na AWS

[17] LogAnalyzer pro Amazon CloudFront

[18] BackType blog Archivováno 25. srpna 2011, v Wayback Machine

[19] Příspěvek na blogu od Etsy popisující jejich použití Cascading with Hadoop

[20] FlightCaster

[21] Ion Flux Archivováno 23. října 2011, v Wayback Machine

[22] Blog RapLeaf Archivováno 1. února 2011, v Wayback Machine

[23] Razorfish

[24] [1]

[25] Cascading.jruby

[26] Cascalog

[27] Obarení

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]