Kaskádování (software) - Cascading (software)

Kaskádové
Stabilní uvolnění
3.1
NapsánoJáva
LicenceLicence Apache
webová stránkahttp://www.cascading.org/

Kaskádové je software abstrakční vrstva pro Apache Hadoop a Apache Flink. Kaskádování se používá k vytváření a provádění komplexních pracovních postupů zpracování dat v clusteru Hadoop pomocí libovolného JVM -založený jazyk (Jáva, JRuby, Clojure atd.), skrývající základní složitost MapReduce pracovní místa. Je to open source a je k dispozici pod Licence Apache. Komerční podpora je k dispozici od společnosti Driven, Inc.[1]

Autorem hry Cascading byl Chris Wensel, který později založil společnost Concurrent, Inc, která byla znovu označena jako Driven.[2] Komunita aktivně vyvíjí kaskádování[Citace je zapotřebí ] a řada doplňkových modulů je k dispozici.[3]

Architektura

Chcete-li použít kaskádové, musí být nainstalován také Apache Hadoop a úloha Hadoop .jar musí obsahovat kaskádové .jars. Kaskádování se skládá z API pro zpracování dat, integračního API, plánovače procesů a plánovače procesů.

Kaskádování využívá škálovatelnost Hadoopu, ale odděluje standardní operace zpracování dat od podkladové mapy a snižuje úkoly.[4][je zapotřebí lepší zdroj ] Vývojáři používají kaskádování k vytvoření souboru .jar, který popisuje požadované procesy. Sleduje paradigma „source-pipe-sink“, kde jsou data zachycena ze zdrojů, následuje opakovaně použitelné „trubky“, které provádějí procesy analýzy dat, kde jsou výsledky uloženy ve výstupních souborech nebo „propadech“. Potrubí jsou vytvářena nezávisle na datech, která budou zpracovávat. Jakmile je vázán na zdroje dat a propady, nazývá se to „tok“. Tyto toky lze seskupit do „kaskády“ a plánovač procesů zajistí, že daný tok nebude spuštěn, dokud nebudou splněny všechny jeho závislosti. Potrubí a toky lze znovu použít a změnit pořadí pro podporu různých obchodních potřeb.[5]

Vývojáři píší kód v jazyce založeném na JVM a nemusí se učit MapReduce. Výsledný program může být regresně testován a integrován s externími aplikacemi jako každá jiná aplikace Java.[6]

Kaskádování se nejčastěji používá pro cílení reklam, analýzu souborů protokolu, bioinformatiku, strojové učení, prediktivní analytika, těžba webového obsahu a extrakce, transformace a načítání (ETL) aplikací.[7]

Použití kaskádování

Cascading byl v roce 2011 SD Times citován jako jeden z pěti nejvýkonnějších projektů Hadoop,[8][nespolehlivý zdroj? ] jako významný open source projekt relevantní pro bioinformatiku[9][nespolehlivý zdroj? ] a je obsažen v Hadoop: Definitivní průvodce, Tom White.[10] Projekt byl také citován v rámci prezentací, sborníků z konference a setkání skupin uživatelů Hadoop jako užitečný nástroj pro práci s Hadoop[11][12][13][14] a s Apache Spark[15]

  • MultiTool zapnutý Webové služby Amazon byla vyvinuta pomocí kaskádování.[16]
  • LogAnalyzer pro Amazon CloudFront byl vyvinut pomocí kaskádování.[17]
  • BackType[18] - platforma sociální analýzy
  • Etsy[19] - tržiště
  • FlightCaster[20] - předpovídání zpoždění letu
  • Ion Flux[21] - analýza dat sekvence DNA
  • RapLeaf[22] - systémy personalizace a doporučení
  • Razorfish[23] - digitální reklama

Jazyky specifické pro doménu postavené na kaskádování

  • PyCascading[24] - prostřednictvím Twitteru, k dispozici na GitHubu
  • Cascading.jruby[25] - vyvinutý Gregoire Marabout, k dispozici na GitHub
  • Cascalog[26] - autor Nathan Marz, k dispozici na GitHubu
  • Obarení[27] - Scala API pro kaskádování. Usnadňuje přechod kaskádového / opaření kódu na Spark. Prostřednictvím Twitteru, k dispozici na GitHubu

Reference

  1. ^ Stránka kaskádové podpory
  2. ^ Driven, Inc.
  3. ^ "Kaskádové moduly". Archivovány od originál dne 11. 8. 2011. Citováno 2011-08-22.
  4. ^ Příspěvek na blogu od Etsy popisující jejich použití Cascading with Hadoop
  5. ^ Kaskádová uživatelská příručka Archivováno 6. února 2011, v Wayback Machine
  6. ^ Řízená stránka produktu
  7. ^ Domovská stránka
  8. ^ Handy, Alex (1. června 2011). „Pět nejlepších nejvýkonnějších projektů Hadoop“. SD Times. Citováno 26. října 2013.
  9. ^ Taylor, Ronald (21. prosince 2010). „Přehled rámce Hadoop / MapReduce / HBase a jeho současných aplikací v bioinformatice“. BioMed Central. Springer Science + Business Media. Citováno 26. října 2013.
  10. ^ White, Tom, „Hadoop: The Definitive Guide,“ O’Reilly Media, Inc., 2010, str. 539 - 549.
  11. ^ Nathan, Paco (Wikipedia: Paco Nathan ), Prezentace „Začínáme s Hadoopem“ pro SV Cloud Computing Meetup, 19. 7. 2010.
  12. ^ „Julio Guijarro, Steve Loughran a Paolo Castagna,“ Hadoop and beyond, „HP Labs, Bristol UK, 2008“ (PDF). Archivovány od originál (PDF) dne 01.10.2011. Citováno 2011-08-22.
  13. ^ Cross, Bradford, „Flightcaster_HUG“, prezentace ve skupině uživatelů Bay Area Hadoop, 26. března 2010
  14. ^ Curtin, Christopher, „NoSQL, Hadoop and Cascading“, červen 2010.
  15. ^ „Používání kaskádování k vytváření datově orientovaných aplikací ve Sparku“. Spark Summit 2014. 2014-05-07. Citováno 2016-03-25.
  16. ^ Cascading.Multitool na AWS
  17. ^ LogAnalyzer pro Amazon CloudFront
  18. ^ BackType blog Archivováno 25. srpna 2011, v Wayback Machine
  19. ^ Příspěvek na blogu od Etsy popisující jejich použití Cascading with Hadoop
  20. ^ FlightCaster
  21. ^ Ion Flux Archivováno 23. října 2011, v Wayback Machine
  22. ^ Blog RapLeaf Archivováno 1. února 2011, v Wayback Machine
  23. ^ Razorfish
  24. ^ [1]
  25. ^ Cascading.jruby
  26. ^ Cascalog
  27. ^ Obarení

externí odkazy