Binning (metagenomika) - Binning (metagenomics)
tento článek vyžaduje pozornost odborníka na výpočetní biologii.Února 2015) ( |
v metagenomika, binning je proces seskupování čtení nebo kontigy a přiřadit je operativní taxonomické jednotky. Metody binování mohou být založeny na kompozičních vlastnostech nebo zarovnání (podobnost) nebo obojí.
Úvod
Metagenomické vzorky mohou obsahovat údaje z velkého počtu organismů. Například v jednom gramu půdy může existovat až 18 000 různých druhů organismů, každý s vlastním genomem.[1] Metagenomické studie vzorkují DNA z celé komunity a zpřístupňují ji jako nukleotidové sekvence DNA určitou délku. Ve většině případů neúplnost získaných sekvencí ztěžuje sestavování jednotlivých genů,[2] mnohem méně zotavení plné genomy každého organismu. Techniky binování tedy představují „nejlepší úsilí“ k identifikaci čtení nebo kontigy s určitými skupinami organismů označenými jako operativní taxonomické jednotky (OTU).[3]
První studie, které vzorkovaly DNA z více organismů, používaly specifické geny k hodnocení rozmanitosti a původu každého vzorku.[4][5] Tyto markerové geny byly dříve sekvenovány z klonálních kultur ze známých organismů, takže kdykoli se jeden z těchto genů objevil ve čtení nebo v kontigu z metagenomického vzorku, který přečetl, mohl být přiřazen známému druhu nebo OTU tohoto druhu. Problém této metody spočíval v tom, že pouze malá část sekvencí nesla markerový gen, takže většina dat zůstala nepřiřazena.
Moderní techniky binování využívají jak dříve dostupné informace nezávislé na vzorku, tak vnitřní informace přítomné ve vzorku. V závislosti na rozmanitosti a složitosti vzorku se jejich stupeň úspěšnosti liší: v některých případech mohou rozlišit sekvence až na jednotlivé druhy, zatímco v některých jiných jsou sekvence identifikovány v nejlepším případě s velmi širokými taxonomickými skupinami.
Algoritmy
Alginovací algoritmy mohou využívat předchozí informace, a tak se chovat jako klasifikovaní pod dohledem, nebo se mohou pokusit najít nové skupiny, které fungují jako nekontrolované klasifikátory. Mnozí samozřejmě dělají obojí. Klasifikátory využívají dříve známé sekvence prováděním zarovnání proti databáze a pokusit se oddělit sekvenci založenou na charakteristikách DNA specifických pro organismus,[6] jako Obsah GC.
Mande et al., (2012) [7] poskytuje přehled premisy, metodik, výhod, omezení a výzev různých metod dostupných pro binování metagenomických datových souborů získaných pomocí přístupu sekvenování brokovnice. Některé z prominentních algoritmů pro binování jsou popsány níže.
TETRA
TETRA je statistický klasifikátor, který používá vzorce použití tetranukleotidů v genomových fragmentech.[8] Existují čtyři možné nukleotidy DNA, proto tam může být různé fragmenty čtyř po sobě jdoucích nukleotidů; tyto fragmenty se nazývají tetramery. TETRA funguje tak, že uvádí tabulky frekvencí každého tetrameru pro danou sekvenci. Z těchto frekvencí z-skóre poté se vypočítají, což ukazuje, jak nadměrně nebo nedostatečně zastoupený tetramer je v kontrapozici s tím, co by se dalo očekávat při pohledu na jednotlivé nukleotidové kompozice. Z-skóre pro každý tetramer jsou sestavena do vektoru a vektory odpovídající různým sekvencím jsou porovnány po párech, aby se získala míra toho, jak podobné jsou různé sekvence ze vzorku. Očekává se, že nejpodobnější sekvence patří organismům ve stejné OTU.
MEGAN
V DIAMONDU[9]+ MEGAN[10] přístup, všechna čtení se nejprve srovnají s referenční databází proteinů, jako je NCBI-nr, a poté se výsledná seřazení analyzují pomocí naivního algoritmu LCA, který umístí čtení na nejnižší taxonomický uzel v taxonomii NCBI, který leží nad všemi taxony ke kterému má čtení významné zarovnání. Zde je zarovnání obvykle považováno za „významné“, pokud jeho bitové skóre leží nad danou prahovou hodnotou (která závisí na délce čtení) a je do 10%, řekněme, nejlepšího skóre pozorovaného pro toto čtení. Důvodem použití proteinových referenčních sekvencí, spíše než DNA referenčních sekvencí, je to, že současné referenční databáze DNA pokrývají jen malou část skutečné rozmanitosti genomů, které existují v prostředí.
Phylopythia
Phylopythia je klasifikátor pod dohledem vyvinutý vědci v laboratořích IBM a je v zásadě podporovat vektorový stroj trénovaný DNA-kmery ze známých sekvencí.[5]
ZVLÁŠTNÍ POLOŽKY
SOrt-ITEMS (Monzoorul et al., 2009) [11] je algoritmus binning založený na zarovnání vyvinutý společností Innovations Labs společnosti Tata Consultancy Services (TCS) Ltd., Indie. Uživatelé musí provést vyhledávání podobnosti vstupních metagenomických sekvencí (čtení) proti proteinové databázi nr pomocí vyhledávání BLASTx. Vygenerovaný výstup blastxu je poté považován za vstup programem SOrt-ITEMS. Metoda používá řadu prahových hodnot parametru zarovnání BLAST k první identifikaci příslušné taxonomické úrovně (nebo pořadí), kde lze přiřadit čtení. Pro konečné přiřazení metagenomického čtení je poté přijat přístup založený na ortologii. Mezi další algoritmy binningu založené na zarovnání vyvinuté Innovation Labs společnosti Tata Consultancy Services (TCS) patří DiScRIBinATE,[12] Poskytnout [13] a SPHINX.[14] Metodiky těchto algoritmů jsou shrnuty níže.
ROZDĚLAT
DiScRIBinATE (Ghosh et al., 2010) [12] je algoritmus binning založený na ustavení vyvinutý společností Innovations Labs společnosti Tata Consultancy Services (TCS) Ltd., Indie. DiScRIBinATE nahrazuje ortologický přístup SOrt-ITEMS rychlejším přístupem „bez zarovnání“. Bylo pozorováno začlenění této alternativní strategie, aby se snížil čas binningu na polovinu bez jakékoli významné ztráty přesnosti a specificity úkolů. Kromě toho se zdálo, že nová reklasifikační strategie začleněná do DiScRIBinATE snižuje celkovou míru chybné klasifikace.
Poskytnout
ProViDE (Ghosh et al., 2011) [13] je binningový přístup založený na seřazení vyvinutý společností Innovation Labs společnosti Tata Consultancy Services (TCS) Ltd. pro odhad virové rozmanitosti v metagenomických vzorcích. ProViDE používá pro taxonomickou klasifikaci metagenomických sekvencí získaných z datových souborů viromu reverzní ortologický přístup podobný SOrt-ITEMS. Jedná se o přizpůsobenou sadu prahových hodnot parametru BLAST, která je zvláště vhodná pro virové metagenomické sekvence. Tyto prahové hodnoty zachycují vzor divergence sekvencí a nejednotnou taxonomickou hierarchii pozorovanou v různých taxonomických skupinách virové říše / napříč nimi.
PCAHIER
PCAHIER (Zheng et al., 2010),[15] další binningový algoritmus vyvinutý Gruzínským technologickým institutem., jako funkce využívá frekvence n-merních oligonukleotidů a přijímá hierarchický klasifikátor (PCAHIER) pro binování krátkých metagenomických fragmentů. Analýza hlavních komponent byla použita ke snížení vysoké dimenze prostoru funkcí. Účinnost PCAHIER byla prokázána srovnáním s nehierarchickým klasifikátorem a dvěma existujícími binningovými algoritmy (TETRA a Phylopythia).
SFINGA
SPHINX (Mohammed et al., 2011),[14] další binningový algoritmus vyvinutý Innovation Labs společnosti Tata Consultancy Services (TCS) Ltd., přijímá hybridní strategii, která dosahuje vysoké účinnosti binningu pomocí principů binningových algoritmů založených na „složení“ i „zarovnání“. Tento přístup byl navržen s cílem analyzovat metagenomické datové soubory tak rychle jako přístupy založené na složení, ale přesto s přesností a specifičností algoritmů založených na zarovnání. Bylo pozorováno, že SPHINX klasifikuje metagenomické sekvence stejně rychle jako algoritmy založené na kompozici. Kromě toho bylo pozorováno, že účinnost binningu (pokud jde o přesnost a specifičnost přiřazení) SPHINX je srovnatelná s výsledky získanými pomocí algoritmů založených na zarovnání.
INDUS[16] a TWARIT[17]
Představují další binningové algoritmy založené na složení vyvinuté Innovation Labs společnosti Tata Consultancy Services (TCS) Ltd. Tyto algoritmy využívají řadu kompozičních (i statistických) parametrů oligonukleotidů ke zlepšení doby binování při zachování přesnosti a specificity taxonomických přiřazení.
Další algoritmy
Tento seznam není vyčerpávající:
- TACOA (Diaz et al., 2009)
- Parallel-META (Su et al., 2011)
- PhyloPythiaS (Patil et al., 2011)
- RITA (MacDonald et al., 2012)[18]
- BiMeta (Le et al., 2015) [19]
- MetaPhlAn (Segata et al., 2012)[20]
- SeMeta (Le et al., 2016) [21]
- Quikr (Koslicki et al., 2013)[22]
- Taxoner (Pongor et al., 2014)[23]
Všechny tyto algoritmy používají různá schémata pro sekvence binování, například hierarchická klasifikace a působí buď v a pod dohledem nebo bez dozoru způsob. Tyto algoritmy poskytují globální pohled na to, jak rozmanité jsou vzorky, a mohou potenciálně propojit složení a funkci komunity v metagenomech.
Reference
- ^ Daniel, Rolf (01.06.2005). "Metagenomika půdy". Příroda Recenze Mikrobiologie. 3 (6): 470–478. doi:10.1038 / nrmicro1160. ISSN 1740-1526. PMID 15931165. S2CID 32604394.
- ^ Wooley, John C .; Adam Godzik; Iddo Friedberg (2010-02-26). "Primer na metagenomice". PLOS Comput Biol. 6 (2): e1000667. Bibcode:2010PLSCB ... 6E0667W. doi:10.1371 / journal.pcbi.1000667. PMC 2829047. PMID 20195499.
- ^ Thomas, T .; Gilbert, J .; Meyer, F. (2012). „Metagenomika - průvodce od vzorkování po analýzu dat“. Mikrobiální informatika a experimentování. 2 (1): 3. doi:10.1186/2042-5783-2-3. PMC 3351745. PMID 22587947.
- ^ Giovannoni, Stephen J .; Theresa B. Britschgi; Craig L. Moyer; Katharine G. Field (03.05.1990). „Genetická rozmanitost v bakterioplanktonu Sargasového moře“. Příroda. 345 (6270): 60–63. Bibcode:1990 Natur.345 ... 60G. doi:10.1038 / 345060a0. PMID 2330053. S2CID 4370502.
- ^ A b McHardy, Alice Carolyn; Hector Garcia Martin; Aristotelis Tsirigos; Philip Hugenholtz; Isidore Rigoutsos (leden 2007). "Přesná fylogenetická klasifikace fragmentů DNA s proměnnou délkou". Přírodní metody. 4 (1): 63–72. doi:10.1038 / nmeth976. ISSN 1548-7091. PMID 17179938. S2CID 28797816.
- ^ Karlin, S .; I. Ladunga; B. E. Blaisdell (1994). „Heterogenita genomů: míry a hodnoty“. Sborník Národní akademie věd. 91 (26): 12837–12841. Bibcode:1994PNAS ... 9112837K. doi:10.1073 / pnas.91.26.12837. PMC 45535. PMID 7809131.
- ^ Mande, Sharmila S .; Monzoorul Haque Mohammed; Tarini Shankar Ghosh (2012). "Klasifikace metagenomických sekvencí: metody a výzvy". Briefings in Bioinformatics. 13 (6): 669–81. doi:10.1093 / bib / bbs054. PMID 22962338.
- ^ Teeling, Hanno; Jost Waldmann; Thierry Lombardot; Margarete Bauer; Frank Glockner (2004). „TETRA: webová služba a samostatný program pro analýzu a srovnání vzorců používání tetranukleotidů v sekvencích DNA“. BMC bioinformatika. 5 (1): 163. doi:10.1186/1471-2105-5-163. PMC 529438. PMID 15507136.
- ^ Buchfink, Xie and Huson (2015). Msgstr "Rychlé a citlivé sladění proteinů pomocí DIAMOND". Přírodní metody. 12 (1): 59–60. doi:10.1038 / nmeth.3176. PMID 25402007. S2CID 5346781.
- ^ Huson, Daniel H; S. Beier; I. Flade; A. Gorska; M. El-Hadidi; H. Ruscheweyh; R. Tappu (2016). „Komunitní vydání MEGAN - interaktivní průzkum a analýza rozsáhlých dat o sekvenování mikrobiomů“. PLOS výpočetní biologie. 12 (6): e1004957. Bibcode:2016PLSCB..12E4957H. doi:10.1371 / journal.pcbi.1004957. PMC 4915700. PMID 27327495.
- ^ Haque M, Monzoorul; Tarini Shankar Ghosh; Dinakar Komanduri; Sharmila S Mande (2009). „SOrt-ITEMS: Sequence orthology based approach for improved taxonomic estimation of metagenomic sequence“. Bioinformatika. 25 (14): 1722–30. doi:10.1093 / bioinformatika / btp317. PMID 19439565.
- ^ A b Ghosh, Tarini Shankar; Monzoorul Haque M; Sharmila S Mande (2010). „DiScRIBinATE: rychlá metoda pro přesnou taxonomickou klasifikaci metagenomických sekvencí“. BMC bioinformatika. 11 (S7): S14. doi:10.1186 / 1471-2105-11-s7-s14. PMC 2957682. PMID 21106121.
- ^ A b Ghosh, Tarini Shankar; Monzoorul Haque Mohammed; Dinakar Komanduri; Sharmila S Mande (2011). „ProViDE: Softwarový nástroj pro přesný odhad virové diverzity v metagenomických vzorcích“. Bioinformace. 6 (2): 91–94. doi:10.6026/97320630006091. PMC 3082859. PMID 21544173.
- ^ A b Mohammed, Monzoorul Haque; Tarini Shankar Ghosh; Nitin Kumar Singh; Sharmila S Mande (2011). "SPHINX - algoritmus pro taxonomické binování metagenomických sekvencí". Bioinformatika. 27 (1): 22–30. doi:10.1093 / bioinformatika / btq608. PMID 21030462.
- ^ Zheng, Hao; Hongwei Wu (2010). "Krátké prokaryotické sdružování fragmentů DNA pomocí hierarchického klasifikátoru založeného na lineární diskriminační analýze a analýze hlavních komponent". J Bioinform Comput Biol. 8 (6): 995–1011. doi:10.1142 / s0219720010005051. PMID 21121023.
- ^ Mohammed, Monzoorul Haque; Tarini Shankar Ghosh; Rachamalla Maheedhar Reddy; CV Reddy; Nitin Kumar Singh; Sharmila S Mande (2011). „INDUS - přístup založený na složení pro rychlou a přesnou taxonomickou klasifikaci metagenomických sekvencí“. BMC Genomics. 12 (S3): S4. doi:10.1186 / 1471-2164-12-s3-s4. PMC 3333187. PMID 22369237.
- ^ Reddy, Rachamalla Maheedhar; Monzoorul Haque Mohammed; Sharmila S Mande (2013). „TWARIT: extrémně rychlý a efektivní přístup k fylogenetické klasifikaci metagenomických sekvencí“. Gen. 505 (2): 259–65. doi:10.1016 / j.gene.2012.06.014. PMID 22710135.
- ^ MacDonald, Norman J .; Donovan H. Parks; Robert G. Beiko (2012). „Metagenomická mikrobiální komunitní profilování pomocí jedinečných markerových genů specifických pro clade“. Výzkum nukleových kyselin. 40 (14): e111. doi:10.1093 / nar / gks335. PMC 3413139. PMID 22532608.
- ^ Van Vinh, Le, Van Lang, Tran a Tran Van Hoai. „Dvoufázový binovací algoritmus využívající frekvenci l-mer na skupiny nepřekrývajících se čtení.“ Algorithms for Molecular Biology 10.1 (2015): 1.
- ^ Nicola, Segata; Levi Waldron; Annalisa Ballarini; Vagheesh Narasimhan; Olivier Jousson; Curtis Huttenhower (2012). „Metagenomická mikrobiální komunitní profilování pomocí jedinečných markerových genů specifických pro clade“. Přírodní metody. 9 (8): 811–814. doi:10.1038 / nmeth.2066. PMC 3443552. PMID 22688413.
- ^ Van Vinh, Le, Van Lang, Tran a Tran Van Hoai. "Nový částečně podřízený algoritmus pro taxonomické přiřazení metagenomických čtení". BMC bioinformatics, 17 (1), 2016.
- ^ Koslicki, David; Simon Foucart; Gail Rosen (2013). „Quikr: metoda pro rychlou rekonstrukci bakteriálních komunit pomocí tlakového snímání“. Bioinformatika. 29 (17): 2096–2102. doi:10.1093 / bioinformatika / btt336. PMID 23786768.
- ^ Pongor, Lőrinc; Roberto Vera; Balázs Ligeti1 (2014). „Rychlé a citlivé zarovnání sekvenování mikrobiálního celého genomu čte do velkých sekvenčních datových souborů na stolním počítači: aplikace na metagenomické datové soubory a identifikace patogenu“. PLOS ONE. 9 (7): e103441. Bibcode:2014PLoSO ... 9j3441P. doi:10.1371 / journal.pone.0103441. PMC 4117525. PMID 25077800.
- Schloss, Patrick D; Jo Handelsman (2006-07-21). „Směrem ke sčítání bakterií v půdě“. PLOS Comput Biol. 2 (7): e92. Bibcode:2006PLSCB ... 2 ... 92S. doi:10.1371 / journal.pcbi.0020092. PMC 1513271. PMID 16848637.