MG-RAST - MG-RAST
Původní autoři | Argonne National Laboratory, University of Chicago, Státní univerzita v San Diegu |
---|---|
Vývojáři | F. Meyer, D. Paarmann, M. D'Souza, R. Olson, E.M. Glass, M. Kubal, T. Paczian, A. Rodriguez, R. Stevens, A. Wilke, J. Wilkening, R.A. Edwards |
První vydání | 2008 |
Stabilní uvolnění | 4.0 / 15. listopadu 2016 |
Typ | Bioinformatika |
webová stránka | http://metagenomics.anl.gov/ |
MG-RAST je open-source webový aplikační server, který navrhuje automatické fylogenetické a funkční analýza metagenomy.[1] Je také jedním z největších úložišť metagenomických dat. Název je zkratkou Metagenomické rychlé poznámky využívající technologii subsystémůKanál automaticky vytváří funkční přiřazení k sekvence které patří do metagenomu provedením porovnání sekvencí s databáze v obounukleotid a aminokyselina úrovně. Aplikace poskytují fylogenetické a funkční přiřazení metagenomu, který je analyzován, stejně jako nástroje pro srovnání různých metagenomů. Poskytuje také a RESTful API pro programový přístup.
Server byl vytvořen a udržován uživatelem Argonne National Laboratory z University of Chicago. V 29. prosince 2016 systém analyzoval 60 terabázových párů dat z více než 150 000 datových sad. Z analyzovaných datových souborů je více než 23 000 veřejnosti k dispozici.
V současné době jsou výpočetní zdroje poskytovány cloudem DOE Magellan v Argonne National Laboratory, Webové služby Amazon EC2 a řada tradičních klastrů.
Pozadí
MG-RAST byl vyvinut jako snaha mít bezplatný veřejný zdroj pro analýzu a ukládání dat sekvence metagenomu. Tato služba odstraňuje jednu z hlavních překážek v analýze metagenomu: dostupnost vysoce výkonných výpočtů pro anotování dat.[2]
Metagenomické a metatranskriptomické studie zahrnují zpracování velkých datových souborů, a proto mohou vyžadovat výpočetně nákladnou analýzu. V dnešní době jsou vědci schopni generovat takové objemy dat, protože v posledních letech se náklady na sekvenování dramaticky snížily. Tato skutečnost posunula omezující faktor na výpočetní náklady: například nedávná studie University of Maryland odhaduje náklady na více než 5 milionů dolarů na terabázi pomocí jejich CLOVR potrubí analýzy metagenomu.[3] Vzhledem k tomu, že velikost a počet sekvenčních datových souborů se stále zvyšuje, náklady spojené s jejich analýzou budou stále stoupat.
MG-RAST navíc funguje také jako nástroj úložiště metagenomických dat. Metadata shromažďování a interpretace je pro genomické a metagenomické studie zásadní a mezi výzvy v tomto ohledu patří výměna, úprava a distribuce těchto informací. Systém MG-RAST byl prvním uživatelem standardů minimálního kontrolního seznamu a rozšířených ekologických balíčků specifických pro biomy navržených Konsorcium pro normy pro genomiku a poskytuje snadno použitelný nástroj pro nahrávání metadat v době odeslání dat.[4]
Potrubí pro analýzu metagenomických dat
Aplikace MG-RAST nabízí automatizovanou kontrolu kvality, anotace, komparativní analýzu a archivaci metagenomických a amplikonových sekvencí pomocí kombinace několika bioinformatických nástrojů. Aplikace byla vytvořena k analýze metagenomických dat, ale také podporuje zpracování sekvencí amplikonů (16S, 18S a ITS) a sekvencí metatranscriptome (RNA-seq). V současné době MG-RAST není schopen předpovídat kódující oblasti z eukaryot, a proto má omezené použití pro analýzu eukaryotických metagenomů.[5]
Potrubí MG-RAST lze rozdělit do pěti fází:
Hygiena dat
Zahrnuje kroky pro kontrolu kvality a odstranění artefaktů. Nejprve se oříznou oblasti nízké kvality SolexaQA a čtení zobrazující nevhodné délky jsou odstraněny. V případě zpracování datových sad metagenomu a metatranscriptomu je zahrnut krok dereplikace. Následně se DRISEE (Duplicate Read Inferred Sequencing Error Estimation) použije k vyhodnocení chyby sekvenčního vzorkování na základě měření ADR (Artificial Duplicate Reads). A konečně, potrubí nabízí možnost prověřování čtení pomocí Motýlek zarovnávač a odstranění čtení zobrazujících shody blízké genomům modelových organismů (včetně mouchy, myši, krávy a člověka).
Extrakce funkcí
MG-RAST identifikuje genové sekvence pomocí přístupu strojového učení: FragGeneScan. Sekvence ribozomální RNA jsou identifikovány pomocí iniciály BLAT hledat proti zmenšené verzi SILVA databáze.
Anotace prvku
Za účelem identifikace domnělých funkcí a anotací genů vytváří MG-RAST shluky proteinů na 90% úrovni identity pomocí UCLUST implementace v QIIME. Pro analýzu podobnosti bude vybrána nejdelší sekvence každého klastru. Analýza podobnosti se počítá pomocí sBLAT (ve kterém BLAT algoritmus je paralelizován pomocí OpenMP ). Hledání je počítáno proti proteinové databázi odvozené od M5nr, která poskytuje neredundantní integraci sekvencí z databází GenBank, SEED, IMG, UniProt, KEGG a eggNOGs.[6]
Čtení spojená s rRNA sekvencemi jsou seskupena s 97% identitou. Nejdelší sekvence každého klastru je vybrána jako reprezentativní a bude použita pro vyhledávání BLAT proti databázi M5rna, která integruje SILVA, Greengenes a RDP.
Generování profilu
Data jsou integrována do řady datových produktů. Nejdůležitější z nich jsou profily hojnosti, které představují otočnou a agregovanou verzi souborů podobnosti.
Načítání dat
Nakonec se získané profily četnosti načtou do příslušných databází.
Podrobné kroky potrubí MR-RAST
Potrubí MR-RAST | Popis |
---|---|
qc_stats | Generujte statistiky kontroly kvality |
předzpracování | Předběžné zpracování k oříznutí regionů nízké kvality z dat FASTQ |
dereplikace | Dereplikace dat brokovnice metagenomu pomocí přístupu k-mer |
obrazovka | Odstranění čtení, která jsou téměř přesná shoda s genomy modelových organismů (moucha, myš, kráva a člověk) |
detekce RNA | Hledání BLAT proti databázi se sníženou RNA k identifikaci ribozomální RNA |
shlukování RNA | Čtení podobná rRNA jsou poté seskupena s 97% identitou |
rna sims blat | Hledání podobnosti BLAT pro nejdelší zástupce klastru proti databázi M5rna |
genové volání | Přístup strojového učení, FragGeneScan, k předpovědi kódujících oblastí v sekvencích DNA |
aa filtrování | Filtrovat proteiny |
aa shlukování | Shlukujte proteiny na 90% úrovni identity pomocí uclust |
aa sims blat | Analýza podobnosti BLAT k identifikaci proteinu |
anotace simů | Sekvenční podobnost s databází proteinů z M5nr |
anotace rna sims | Sekvenční podobnost s RNA databází z M5rna |
index sim seq | Podobnost indexové sekvence se zdroji dat |
shrnutí anotace md5 | Generování souhrnné zprávy anotace MD5, anotace funkcí, anotace organismu, anotace LCAa, anotace ontologie a anotace zdroje |
shrnutí anotace funkce | Generování souhrnné zprávy anotace MD5, anotace funkcí, anotace organismu, anotace LCAa, anotace ontologie a anotace zdroje |
shrnutí anotace organismu | Generování souhrnné zprávy anotace MD5, anotace funkcí, anotace organismu, anotace LCAa, anotace ontologie a anotace zdroje |
shrnutí anotace lca | Generování souhrnné zprávy anotace MD5, anotace funkcí, anotace organismu, anotace LCAa, anotace ontologie a anotace zdroje |
shrnutí anotace ontologie | Generování souhrnné zprávy anotace MD5, anotace funkcí, anotace organismu, anotace LCAa, anotace ontologie a anotace zdroje |
shrnutí anotace zdroje | Generování souhrnné zprávy anotace MD5, anotace funkcí, anotace organismu, anotace LCAa, anotace ontologie a anotace zdroje |
souhrnné načtení md5 | Načíst souhrnnou zprávu do projektu |
souhrnné načtení funkce | Načíst souhrnnou zprávu do projektu |
souhrnné zatížení organismu | Načíst souhrnnou zprávu do projektu |
lca souhrnné načtení | Načíst souhrnnou zprávu do projektu |
souhrnné načtení ontologie | Načíst souhrnnou zprávu do projektu |
hotová fáze | |
oznámit dokončení úlohy | Odeslat oznámení uživateli e-mailem |
Obslužné programy MG-RAST
Kromě analýzy metagenomu lze MG-RAST použít také pro zjišťování dat. Vizualizaci nebo srovnání profilů metagenomů a souborů dat lze implementovat v široké škále režimů; webové rozhraní umožňuje výběr dat na základě kritérií, jako je složení, kvalita sekvencí, funkčnost nebo typ vzorku, a nabízí několik způsobů výpočtu statistických závěrů a ekologických analýz. Profily metagenomů lze vizualizovat a porovnat pomocí barchartů, stromů, tabulkových tabulek, teplotních map, PCoA, grafů zředění, kruhového náborového grafu a map KEGG.
Viz také
Reference
- ^ Meyer, F; Paarmann, D; D'Souza, M; Olson, R; Glass, EM; Kubal, M; Paczian, T; Rodriguez, A; Stevens, R; Wilke, A; Wilkening, J; Edwards, RA (2008). „Server metagenomiky RAST - veřejný zdroj pro automatickou fylogenetickou a funkční analýzu metagenomů“. BMC bioinformatika. 9 (1): 386. doi:10.1186/1471-2105-9-386. ISSN 1471-2105. PMC 2563014. PMID 18803844.
- ^ Meyer, F .; Paarmann, D .; D'Souza, M .; Olson, R .; Glass, EM; Kubal, M .; Paczian, T .; Rodriguez, A .; Stevens, R. (01.01.2008). „Server metagenomiky RAST - veřejný zdroj pro automatickou fylogenetickou a funkční analýzu metagenomů“. BMC bioinformatika. 9: 386. doi:10.1186/1471-2105-9-386. ISSN 1471-2105. PMC 2563014. PMID 18803844.
- ^ Angiuoli, Samuel V .; Matalka, Malcolm; Gussman, Aaron; Galens, Kevin; Vangala, Mahesh; Riley, David R .; Arze, Cesar; White, James R .; White, Owen (01.01.2011). „CloVR: Virtuální stroj pro automatizovanou a přenosnou sekvenční analýzu z počítače pomocí cloud computingu“. BMC bioinformatika. 12: 356. doi:10.1186/1471-2105-12-356. ISSN 1471-2105. PMC 3228541. PMID 21878105.
- ^ Field, Dawn; Amaral-Zettler, Linda; Cochrane, Guy; Cole, James R .; Dawyndt, Peter; Garrity, George M .; Gilbert, Jack; Glöckner, Frank Oliver; Hirschman, Lynette (21.06.2011). „Konsorcium pro genomické standardy“. PLOS Biology. 9 (6): e1001088. doi:10.1371 / journal.pbio.1001088. ISSN 1545-7885. PMC 3119656. PMID 21713030.
- ^ Keegan, Kevin P .; Glass, Elizabeth M .; Meyer, Folker (01.01.2016). MG-RAST, služba metagenomiky pro analýzu struktury a funkce mikrobiální komunity. Metody v molekulární biologii. 1399. 207–233. doi:10.1007/978-1-4939-3369-3_13. ISBN 978-1-4939-3367-9. ISSN 1940-6029. PMID 26791506.
- ^ Wilke, Andreas; Harrison, Travis; Wilkening, Jared; Field, Dawn; Glass, Elizabeth M .; Kyrpides, Nikos; Mavrommatis, Konstantinos; Meyer, Folker (01.01.2012). „M5nr: nová neredundantní databáze obsahující proteinové sekvence a poznámky z různých zdrojů a souvisejících nástrojů“. BMC bioinformatika. 13: 141. doi:10.1186/1471-2105-13-141. ISSN 1471-2105. PMC 3410781. PMID 22720753.