Reynold Xin - Reynold Xin

Reynold Xin
Alma materUC Berkeley (doktorské studium)
University of Toronto (BA.Sc.)
Známý jakoApache Spark, Databricky
Vědecká kariéra
PolePočítačová věda
Doktorský poradceMichael J. Franklin

Reynold Xin je počítačový vědec a inženýr specializující se v velká data, distribuované systémy, a cloud computing. Je spoluzakladatelem a hlavním architektem společnosti Databricky.[1] On je nejlépe známý pro jeho práci na Apache Spark, který od června 2016 je nejlepší open-source Velká data projekt.[2] Navrhl a vedl vývoj GraphX, Projekt Tungsten a komponenty strukturovaného streamování a spoluautorem DataFrames —Všechny jsou součástí základní distribuce Apache Spark — plus sloužil jako správce vydání pro verzi Spark 2.0.[3]

Životopis

UC Berkeley

Xin zahájil svou práci na open source projektu Spark, zatímco byl kandidátem na PhD UC Berkeley AMPLab.

První výzkumný projekt, Shark,[4] vytvořil systém, který byl schopen efektivně provádět SQL a pokročilé analytické úlohy ve velkém. Shark vyhrál cenu za nejlepší demo na SIGMOD 2012.[5] Shark byl jedním z prvních open source interaktivních SQL na systémech Hadoop, s tvrzením, že byl mezi 10 a 100krát rychlejší než Apache Hive. Shark používali technologické společnosti jako Yahoo,[6] ačkoli to bylo v roce 2014 nahrazeno novějším systémem s názvem Spark SQL.[7]

Druhý výzkumný projekt, GraphX,[8] vytvořil systém zpracování grafů nad Sparkem, obecným datově paralelním systémem. GraphX ​​zároveň zpochybnil představu, že pro výpočet grafů jsou nezbytné specializované systémy. GraphX ​​byl vydán jako projekt s otevřeným zdrojovým kódem a sloučen do Sparku v roce 2014 jako knihovna pro zpracování grafů ve Sparku.

Databricky

V roce 2013 spolu s Matei Zaharia a další klíčoví přispěvatelé Spark, spoluzaložili Xin Databricky, společnost s podporou podnikání se sídlem v San Francisku, která nabízí datovou platformu jako službu založenou na Sparku.

V roce 2014 vedl Xin tým inženýrů z Databricks, aby soutěžil v Sort Benchmarku, a vyhrál světový rekord 2014 v Daytona GraySort pomocí Sparku, čímž překonal předchozí rekord držený Apache Hadoop třicetkrát.[9] Xin tvrdil, že Spark byl nejrychlejší open source engine pro třídění petabajtů dat.[10]

Během pobytu v Databricks také zahájil projekt DataFrames,[11] Projekt Tungsten,[12] a strukturované streamování.[13] DataFrames se stal základním API, zatímco Tungsten se stal novým prováděcím strojem.

Reference

  1. ^ „Reynold Xin: Výkonný profil a biografie - Businessweek“. bloomberg.com. Bloomberg Businessweek. Citováno 21. září 2016.
  2. ^ Woodie, Alex (8. června 2016). „Apache Spark Adoption by the Numbers“. datanami.com. Táborská komunikace. Citováno 21. září 2016.
  3. ^ „Seznam vývojářů Apache Spark - [OZNAM] Ohlášení Apache Spark 2.0.0“. seznam apache-spark-developers-list.1001551.n3.nabble.com. Citováno 2016-08-04.
  4. ^ Xin, Reynold S .; Rosen, Josh; Zaharia, Matei; Franklin, Michael J .; Shenker, Scott; Stoica, Ion (01.01.2013). "Shark: SQL a Rich Analytics v měřítku". Sborník mezinárodní konference ACM SIGMOD o správě dat z roku 2013. SIGMOD '13. New York, NY, USA: ACM: 13–24. doi:10.1145/2463676.2465288. ISBN  9781450320375.
  5. ^ „Shark vyhrává cenu za nejlepší demo na SIGMOD 2012“. AMPLab - UC Berkeley. Citováno 2016-08-04.
  6. ^ Tully. „Analytics on Spark & ​​Shark @Yahoo“ (PDF).
  7. ^ „Shark, Spark SQL, Hive on Spark a budoucnost SQL v Apache Spark“. 2014-07-01. Citováno 2016-08-04.
  8. ^ Gonzalez, Joseph E .; Xin, Reynold S .; Dave, Ankur; Crankshaw, Daniel; Franklin, Michael J .; Stoica, Ion (01.01.2014). „GraphX: Zpracování grafů v rámci distribuovaného toku dat“. Sborník z 11. konference USENIX o návrhu a implementaci operačních systémů. OSDI'14. Berkeley, CA, USA: USENIX Association: 599–613. ISBN  9781931971164.
  9. ^ „Spuštění rozdrtí 100 terabajtů dat za rekordních 23 minut“. Citováno 2016-08-04.
  10. ^ „Apache Spark nejrychlejší open source engine pro třídění petabajtů“. 2014-10-10. Citováno 2016-08-04.
  11. ^ „Představujeme DataFrames v Apache Spark pro rozsáhlou datovou vědu“. 2015-02-17. Citováno 2016-08-04.
  12. ^ Woodie, Alex (4. května 2015). „Deep Dive Into Databricks 'Big Speedup Plans for Apache Spark“. datanami.com. Táborská komunikace. Citováno 21. září 2016.
  13. ^ Woodie, Alex (25. února 2016). „Spark 2.0 představuje nový modul„ strukturovaného streamování ““. datanami.com. Táborská komunikace. Citováno 21. září 2016.