David G. Robinson (datový vědec) - David G. Robinson (data scientist)
David G. Robinson je datový vědec ve společnosti Heap analytics company. Je spoluautorem uklizeného textu R (programovací jazyk) balíček a kniha O’Reilly, Těžba textu s R.. Robinson dříve pracoval jako hlavní vědecký pracovník v DataCampu a jako datový vědec v Přetečení zásobníku.[1] V roce 2019 byl také datovým inženýrem ve společnosti Flatiron Health.
Vzdělávání
Robinson dostal jeho PhD v kvantitativní a výpočetní biologii od Univerzita Princeton[2] a jeho bakaláři z Harvardská Univerzita s diplomem v A.B., Statistika v roce 2010.[3]
Kariéra
Robinson dříve pracoval ve společnosti Flatiron Health, kde využíval datovou vědu v boji proti rakovině v týmu Data Insights Engineering. Má publikované tři kurzy DataCamp, které pomáhají lidem s učením R a datová věda.[4] Vydal také knihu, Těžba textu s R: Čistý přístup,[5] který je vodítkem k získávání poznatků z textu pomocí balíčku tidytext v R. Spoluautorem s Julií Silge a publikoval O’Reilly v červenci 2017.[6] Další kniha od Robinsona je Úvod do Empirických Bayes: Příklady ze statistiky baseballu, e-kniha demonstrující statistickou metodu empirické Bayes, na základě příkladu odhadu průměrů odpalování baseballu.[7]
Robinson je známý svou analýzou Donald Trump Tweety v roce 2016, kdy zjistil, že příspěvky z Trumpova oficiálního účtu pocházejí z více zdrojů.[8][9][10]
Publikace
Robinson má řadu publikací, včetně: „Rozsáhlé změny ve stabilitě mRNA přispívají k vzorům genové exprese specifickým pro klidový stav ve fibroblastovém modelu klidového stavu“,[11] "broom: Balíček R pro převod objektů statistické analýzy na uklizené datové rámce",[12] "Vnořený paralelní experiment ukazuje rozdíly v závislosti na intenzitě mezi RNA-seq a microarrays",[13] "subSeq: Určení vhodné hloubky řazení pomocí efektivního podvzorkování čtení",[14] "Design and Analysis of Bar-seq Experiments",[15] a „OASIS: automatizovaný program pro globální vyšetřování sekvencí inzerce bakterií a archaea“.[16]
Jak již bylo zmíněno, jeho kniha „Úvod do empirických Bayesů“ pomáhá čtenářům porozumět Bayesovské metody pro odhad binomických rozměrů prostřednictvím řady příkladů čerpaných ze statistik baseballu.[17]
Reference
- ^ „Learn R, Python & Data Science Online“. nedefinováno. Citováno 2020-04-01.
- ^ „Absolvent QCB | Institut Lewis-Sigler“. lsi.princeton.edu. Citováno 2020-04-01.
- ^ Robinson, David. „LinkedIn“.
- ^ "Datová sada gapminder | R". campus.datacamp.com. Citováno 2020-04-01.
- ^ Silge, Julia (12. června 2017). Těžba textu s R: uklizený přístup. Robinson, David (první vydání). Sebastopol, CA. ISBN 978-1-4919-8162-7. OCLC 990182937.
- ^ Robinson, Julia Silge a David. Těžba textu s R..
- ^ „Introduction to Empirical Bayes: examples from Baseball Statistics“. Gumroad. Citováno 2020-04-01.
- ^ Greenemeier, Larry. „Pouze některé z tweetů @ realDonaldTrump jsou ve skutečnosti Donald Trump“. Scientific American. Citováno 2020-06-01.
- ^ Berger, Arielle. „DATA SCIENTIST: There is a easy way to determine if one of Trump's tweets comes from him or his campaign“. Business Insider. Citováno 2020-06-01.
- ^ Kahn, Andrew; Philbrick, Ian Prasad (2016-08-15). „Kdo napsal tyto tweety Donalda Trumpa?“. Břidlice. ISSN 1091-2339. Citováno 2020-06-01.
- ^ Johnson, Elizabeth L .; Robinson, David G .; Coller, Hilary A. (2017-02-01). „Rozšířené změny ve stabilitě mRNA přispívají k vzorům genové exprese specifickým pro klidový stav ve fibroblastovém modelu klidového stavu“. BMC Genomics. 18 (1): 123. doi:10.1186 / s12864-017-3521-0. ISSN 1471-2164. PMC 5286691. PMID 28143407.
- ^ Robinson, David (2014-12-19). "koště: Balíček R pro převod objektů statistické analýzy na uklizené datové rámce". arXiv:1412.3565 [stat.CO ].
- ^ Robinson, David G .; Wang, Jean; Storey, John D. (2015). „Vnořený paralelní experiment ukazuje rozdíly v závislosti na intenzitě mezi RNA-Seq a Microarrays“. Výzkum nukleových kyselin. 43 (20): gkv636. bioRxiv 10.1101/013342. doi:10.1093 / nar / gkv636. PMC 4787771. PMID 26130709.
- ^ Robinson, David G .; Storey, John D. (01.12.2014). "subSeq: Určení vhodné hloubky sekvenování prostřednictvím efektivního převzorkování čtení". Bioinformatika. 30 (23): 3424–3426. doi:10.1093 / bioinformatika / btu552. ISSN 1367-4803. PMC 4296149. PMID 25189781.
- ^ Robinson, David G .; Chen, Wei; Storey, John D .; Gresham, David (01.01.2014). "Návrh a analýza experimentů s bar-seq". G3: Geny, genomy, genetika. 4 (1): 11–18. doi:10,1534 / g3,113,008565. ISSN 2160-1836. PMC 3887526. PMID 24192834.
- ^ Robinson, David G .; Lee, Ming-Chun; Marx, Christopher J. (2012-12-01). „OASIS: automatizovaný program pro globální vyšetřování sekvencí inzerce bakterií a archaea“. Výzkum nukleových kyselin. 40 (22): e174. doi:10.1093 / nar / gks778. ISSN 0305-1048. PMC 3526298. PMID 22904081.
- ^ 7. února, oznamující vydání mé e-knihy: Úvod do Empirických Bayes, byla vydána dne; 2017. „Oznamuji vydání mé e-knihy: Úvod do empirických Bayes“. Vysvětlení odchylky. Citováno 2020-04-13.CS1 maint: číselné názvy: seznam autorů (odkaz)