Galaxy (výpočetní biologie) - Galaxy (computational biology)
![]() | |
![]() | |
Vývojáři | Komunita Galaxy |
---|---|
První vydání | 16. září 2005 |
Stabilní uvolnění | 19.01 / 28 února 2019 |
Úložiště | github |
Napsáno | Krajta, JavaScript |
Operační systém | Unixový |
Plošina | Linux, OSX |
K dispozici v | Angličtina |
Typ | Vědecký pracovní postup, integrace dat, analýza a publikování dat |
Licence | Akademická bezplatná licence[1] |
webová stránka | galaxický projekt |
Galaxie[2] je vědecký pracovní tok, integrace dat,[3][4] a vytrvalost a publikování dat a analýz platforma, jejíž cílem je vytvořit výpočetní biologie přístupné výzkumným vědcům, kteří nemají programování nebo správa systémů Zkušenosti. Ačkoli byl původně vyvinut pro genomický výzkum, je do značné míry doménový agnostik a nyní se používá jako obecný systém řízení pracovního toku bioinformatiky.[5]
Funkčnost
Galaxy je systém vědeckých pracovních postupů. Tyto systémy poskytují prostředky k vytváření vícestupňových výpočetních analýz podobných receptu. Obvykle poskytují a grafické uživatelské prostředí[6] za upřesnění, na kterých datech se má pracovat, jaké kroky je třeba podniknout a v jakém pořadí je provést.
Galaxy je také integrace dat platforma pro biologická data. Podporuje nahrávání dat z počítače uživatele, pomocí adresy URL a přímo z mnoha online zdrojů (například UCSC Genome Browser, BioMart a InterMine ). Galaxy podporuje řadu široce používaných formáty biologických dat a překlad mezi těmito formáty. Galaxy poskytuje webové rozhraní pro mnoho obslužných programů pro manipulaci s textem, což umožňuje vědcům provádět vlastní přeformátování a manipulaci, aniž by museli dělat cokoli programování. Galaxy zahrnuje intervalová manipulace nástroje pro práci nastavit teoretické operace (např. průsečík, svaz, ...) v intervalech. Mnoho formátů biologických souborů zahrnuje genomová intervalová data (referenční rámec, např. chromozóm nebo kontig název a pozice start a stop), což umožňuje integraci těchto dat.
Galaxy byla původně vytvořena zejména pro biologickou analýzu dat genomika. Sada dostupných nástrojů se v průběhu let značně rozšířila a nyní se používá také pro Galaxy genová exprese, shromáždění genomu, proteomika, epigenomika, transkriptomika a řada dalších oborů v biologických vědách. Samotná platforma je ve skutečnosti doménová agnostika a lze ji teoreticky aplikovat na jakoukoli vědeckou doménu, například cheminformatika.[7] Například servery Galaxy existují pro analýzu obrazu,[8] výpočetní chemie[9] a drogový design,[10] kosmologie, modelování klimatu, společenské vědy,[11] a lingvistika.
Nakonec Galaxy také podporuje vytrvalost a publikování dat a analýz. Vidět Reprodukovatelnost a Průhlednost níže.
Cíle projektu
Galaxy je „otevřená webová platforma pro provádění dostupné, reprodukovatelné a transparentní genomické vědy“.[12]
Přístupnost
Výpočetní biologie je specializovaná doména, která často vyžaduje znalost programování. Galaxy si klade za cíl poskytnout biomedicínským vědcům přístup k výpočetní biologii, aniž by od nich také vyžadoval pochopení počítačového programování.[13][14] Galaxy to dělá zdůrazněním jednoduchého uživatelského rozhraní[15] přes schopnost vytvářet složité pracovní postupy. Tato volba designu umožňuje relativně snadné sestavení typických analýz, ale je obtížnější vytvořit složité pracovní postupy, které zahrnují například smyčkové konstrukce. (Vidět Apache Taverna příklad systému pracovního toku založeného na datech, který podporuje vytváření smyček.[16])
Reprodukovatelnost
Reprodukovatelnost je klíčovým cílem vědy: Když jsou publikovány vědecké výsledky, publikace by měly obsahovat dostatek informací, aby ostatní mohli experiment opakovat a dosáhnout stejných výsledků. V poslední době bylo mnoho snah rozšířit tento cíl z lavičky („mokrá laboratoř „) k výpočetním experimentům („suchá laboratoř ") také. Ukázalo se, že jde o obtížnější úkol, než se původně očekávalo.[17]
Galaxy podporuje reprodukovatelnost tím, že získává dostatek informací o každém kroku ve výpočetní analýze, takže analýzu lze přesně opakovat kdykoli v budoucnu. To zahrnuje sledování všech vstupních, mezilehlých a konečných datových sad, stejně jako poskytované parametry a pořadí každého kroku analýzy.
Průhlednost
Galaxy podporuje průhlednost ve vědeckém výzkumu tím, že umožní vědcům sdílet cokoli z toho Galaxy objekty buď veřejně, nebo s konkrétními jednotlivci. Sdílené položky lze podrobně prozkoumat, znovu spustit podle libosti a zkopírovat a upravit pro testování hypotéz.
Objekty Galaxy: historie, pracovní toky, datové sady a stránky
Galaxie předměty jsou cokoli, co lze v Galaxy uložit, přetrvávat a sdílet:
- Historie
- Historie jsou výpočetní analýzy (recepty) spuštěné se specifikovanými vstupními datovými sadami, výpočetními kroky a parametry. Historie zahrnuje také všechny mezilehlé a výstupní datové sady.
- Pracovní postupy
- Pracovní postupy jsou výpočetní analýzy, které specifikují všechny kroky (a parametry) v analýze, ale žádná z údajů. Pracovní postupy se používají ke spuštění stejné analýzy proti více sadám vstupních dat.
- Datové sady
- Datové sady zahrnuje jakýkoli vstupní, mezilehlý nebo výstupní datový soubor, použitý nebo vytvořený v analýze.
- Stránky
- Historie, pracovní toky a datové sady mohou obsahovat anotace poskytnuté uživatelem. Galaxie Stránky umožňuje vytvoření virtuálního příspěvku, který popisuje, jak a proč celkový experiment. Tento cíl podporuje těsná integrace stránek s historiemi, pracovními toky a datovými sadami.
Dostupnost
Galaxy je k dispozici:
- Jako bezplatný veřejný webový server[18] podporováno projektem Galaxy.[19] Tento server obsahuje mnoho bioinformatických nástrojů, které jsou široce užitečné v mnoha oblastech výzkumu genomiky. Uživatelé mohou vytvářet přihlášení a ukládat historie, pracovní toky, a datové sady na serveru. Tyto uložené položky lze také sdílet s ostatními.
- Tak jako open-source software které lze stáhnout, nainstalovat a přizpůsobit konkrétním potřebám.[20] Galaxy lze nainstalovat lokálně nebo pomocí výpočetní cloud.[21]
- Veřejné webové servery hostované jinými organizacemi.[22] Několik organizací s vlastní instalací Galaxy se také rozhodlo zpřístupnit tyto servery ostatním.
- Jako součást GenomeSpace iniciativa.
Implementace
Galaxy je open-source software implementováno pomocí Programovací jazyk Python. Vyvinul jej tým Galaxy[23] na Penn State, Univerzita Johna Hopkinse, Oregonská univerzita pro zdraví a vědu a Komunita Galaxy.[24]
Galaxy je rozšiřitelný, protože nové nástroje příkazového řádku lze integrovat a sdílet v rámci Galaxy ToolShed.[25]
Příkladem rozšíření Galaxy je Galaxy-P z Superpočítačový institut University of Minnesota, který je přizpůsoben jako platforma pro analýzu dat pro hmotnostní spektrometrie - na základě proteomiky.[26]
Společenství
Galaxy je projekt s otevřeným zdrojovým kódem a komunita zahrnuje uživatele, organizace, které instalují vlastní instanci, vývojáře Galaxy a vývojáře bioinformatických nástrojů. Projekt Galaxy má seznamy adresátů,[27] komunitní centrum,[28] a výroční schůze.[29]
Viz také
Reference
- ^ „Autorská práva a licence“.
- ^ Afgan, E .; Baker, D .; van den Beek, M .; Blankenberg, D .; Bouvier, D .; Čech, M .; Chilton, J .; Clements, D .; Coraor, N .; Eberhard, C .; Grüning, B .; Guerler, A .; Hillman-Jackson, J .; Von Kuster, G .; Rasche, E .; Soranzo, N .; Turaga, N .; Taylor, J .; Nekrutenko, A .; Goecks, J. (8. července 2016). „Platforma Galaxy pro přístupné, reprodukovatelné a kolaborativní biomedicínské analýzy: aktualizace z roku 2016“. Výzkum nukleových kyselin. 44 (W1): W3 – W10. doi:10.1093 / nar / gkw343. PMC 4987906. PMID 27137889.
- ^ Blankenberg, D .; Coraor, N .; Von Kuster, G .; Taylor, J .; Nekrutenko, A .; Galaxy, T. (2011). „Integrace různých databází do unifikovaného analytického rámce: přístup Galaxy“. Databáze. 2011: bar011. doi:10.1093 / databáze / bar011. PMC 3092608. PMID 21531983.
- ^ Blankenberg, D .; Gordon, A .; Von Kuster, G .; Coraor, N .; Taylor, J .; Nekrutenko, A .; Galaxy, T. (2010). „Manipulace s daty FASTQ pomocí Galaxy“. Bioinformatika. 26 (14): 1783–1785. doi:10.1093 / bioinformatika / btq281. PMC 2894519. PMID 20562416.
- ^ https://galaxyproject.org/public-galaxy-servers
- ^ Schatz, M. C. (2010). „Chybějící grafické uživatelské rozhraní pro genomiku“. Genome Biology. 11 (8): 128–201. doi:10.1186 / gb-2010-11-8-128. PMC 2945776. PMID 20804568.
- ^ Bray, Simon A .; Lucas, Xavier; Kumar, Anup; Grüning, Björn A. (1. června 2020). „The ChemicalToolbox: reprodukovatelná a uživatelsky přívětivá cheminformatická analýza na platformě Galaxy“. Journal of Cheminformatics. 12 (1). doi:10.1186 / s13321-020-00442-7.
- ^ https://bio.tools/galaxy_image_analysis
- ^ Hildebrandt, A. K .; Stöckel, D; Fischer, N.M .; de la Garza, L; Krüger, J; Nikly, S; Röttig, M; Schärfe, C; Schumann, M; Thiel, P; Lenhof, H. P .; Kohlbacher, O; Hildebrandt, A (2014). „Ballaxy: Webové služby pro strukturální bioinformatiku“. Bioinformatika. 31 (1): 121–2. doi:10.1093 / bioinformatika / btu574. PMID 25183489.
- ^ „Archivovaná kopie“. Archivovány od originál dne 2016-05-07. Citováno 2014-11-17.CS1 maint: archivovaná kopie jako titul (odkaz)
- ^ "Galaxie".
- ^ Goecks, J .; Nekrutenko, A .; Taylor, J .; Galaxy Team, T. (2010). „Galaxy: Komplexní přístup k podpoře dostupného, reprodukovatelného a transparentního výpočetního výzkumu v biologických vědách“. Genome Biology. 11 (8): R86. doi:10.1186 / gb-2010-11-8-r86. PMC 2945788. PMID 20738864.
- ^ Blankenberg, D .; Taylor, J .; Nekrutenko, A .; The Galaxy, T. (2011). „Zajištění toho, aby biologové mohli použít více zarovnání celého genomu“. Bioinformatika. 27 (17): 2426–8. doi:10.1093 / bioinformatika / btr398. PMC 3157923. PMID 21775304.
- ^ Blankenberg, D .; Taylor, J .; Schenck, I .; On, J .; Zhang, Y .; Ghent, M .; Veeraraghavan, N .; Albert, I .; Miller, W .; Makova, K. D .; Hardison, R. C .; Nekrutenko, A. (2007). „Rámec pro kolaborativní analýzu dat ENCODE: Zpřístupnění rozsáhlých analýz biologům“. Výzkum genomu. 17 (6): 960–964. doi:10,1101 / gr. 5578007. PMC 1891355. PMID 17568012.
- ^ Schatz, M. C. (2010). „Chybějící grafické uživatelské rozhraní pro genomiku“. Genome Biology. 11 (8): 128–201. doi:10.1186 / gb-2010-11-8-128. PMC 2945776. PMID 20804568.
- ^ Soiland-Reyes, S (13.12.2010). „Looping“. Blog znalostí Taverna. knowledgeblog.org. Archivovány od originál dne 30. prosince 2016. Citováno 28. ledna 2015.
- ^ Ioannidis, J. P. A .; Allison, D. B .; Ball, C. A .; Coulibaly, I .; Cui, X .; Culhane, A. N. C .; Falchi, M .; Furlanello, C .; Game, L .; Jurman, G .; Mangion, J .; Mehta, T .; Nitzberg, M .; Page, G. P .; Petretto, E .; Van Noort, V. (2008). "Opakovatelnost publikovaných analýz genové exprese microarray". Genetika přírody. 41 (2): 149–155. doi:10,1038 / ng.295. PMID 19174838. S2CID 5153795.
- ^ https://usegalaxy.org/
- ^ http://galaxyproject.org/
- ^ http://getgalaxy.org/
- ^ Afgan, E .; Baker, D .; Coraor, N .; Chapman, B .; Nekrutenko, A .; Taylor, J. (2010). „Galaxy CloudMan: Poskytování cloudových výpočetních klastrů“. BMC bioinformatika. 11: S4. doi:10.1186 / 1471-2105-11-S12-S4. PMC 3040530. PMID 21210983.
- ^ https://galaxyproject.org/public-galaxy-servers
- ^ https://galaxyproject.org/galaxy-team
- ^ Lazarus, R .; Taylor, J .; Qiu, W .; Nekrutenko, A. (2008). „Směrem ke komoditizaci translačního genomického výzkumu: konstrukční a implementační funkce genomického pracovního stolu Galaxy“. Summit o translační bioinformatice. 2008: 56–60. PMC 3041519. PMID 21347127.
- ^ Blankenberg, Daniel; Von Kuster, Gregory; Bouvier, Emil; Baker, Dannon; Afgan, Enis; Stoler, Nicholas; Taylor, James; Nekrutenko, Anton (2014). „Šíření vědeckého softwaru pomocí Galaxy ToolShed“. Genome Biology. 15 (2): 403. doi:10,1186 / gb4161. PMC 4038738. PMID 25001293.
- ^ Sheynkman, GM; Johnson, JE; Jagtap, PD; Shortreed, MR; Onsongo, G; Frey, BL; Griffin, TJ; Smith, LM (22. srpna 2014). „Využití technologie Galaxy-P k využití RNA-Seq k objevení nových variant proteinů“. BMC Genomics. 15 (703): 703. doi:10.1186/1471-2164-15-703. PMC 4158061. PMID 25149441.
- ^ https://galaxyproject.org/mailing-lists
- ^ https://galaxyproject.org/
- ^ https://galaxyproject.org/gcc/