Binning (metagenomika) - Binning (metagenomics)

v metagenomika, binning je proces seskupování čtení nebo kontigy a přiřadit je operativní taxonomické jednotky. Metody binování mohou být založeny na kompozičních vlastnostech nebo zarovnání (podobnost) nebo obojí.

Úvod

Metagenomické vzorky mohou obsahovat údaje z velkého počtu organismů. Například v jednom gramu půdy může existovat až 18 000 různých druhů organismů, každý s vlastním genomem.[1] Metagenomické studie vzorkují DNA z celé komunity a zpřístupňují ji jako nukleotidové sekvence DNA určitou délku. Ve většině případů neúplnost získaných sekvencí ztěžuje sestavování jednotlivých genů,[2] mnohem méně zotavení plné genomy každého organismu. Techniky binování tedy představují „nejlepší úsilí“ k identifikaci čtení nebo kontigy s určitými skupinami organismů označenými jako operativní taxonomické jednotky (OTU).[3]

První studie, které vzorkovaly DNA z více organismů, používaly specifické geny k hodnocení rozmanitosti a původu každého vzorku.[4][5] Tyto markerové geny byly dříve sekvenovány z klonálních kultur ze známých organismů, takže kdykoli se jeden z těchto genů objevil ve čtení nebo v kontigu z metagenomického vzorku, který přečetl, mohl být přiřazen známému druhu nebo OTU tohoto druhu. Problém této metody spočíval v tom, že pouze malá část sekvencí nesla markerový gen, takže většina dat zůstala nepřiřazena.

Moderní techniky binování využívají jak dříve dostupné informace nezávislé na vzorku, tak vnitřní informace přítomné ve vzorku. V závislosti na rozmanitosti a složitosti vzorku se jejich stupeň úspěšnosti liší: v některých případech mohou rozlišit sekvence až na jednotlivé druhy, zatímco v některých jiných jsou sekvence identifikovány v nejlepším případě s velmi širokými taxonomickými skupinami.

Algoritmy

Alginovací algoritmy mohou využívat předchozí informace, a tak se chovat jako klasifikovaní pod dohledem, nebo se mohou pokusit najít nové skupiny, které fungují jako nekontrolované klasifikátory. Mnozí samozřejmě dělají obojí. Klasifikátory využívají dříve známé sekvence prováděním zarovnání proti databáze a pokusit se oddělit sekvenci založenou na charakteristikách DNA specifických pro organismus,[6] jako Obsah GC.

Mande et al., (2012) [7] poskytuje přehled premisy, metodik, výhod, omezení a výzev různých metod dostupných pro binování metagenomických datových souborů získaných pomocí přístupu sekvenování brokovnice. Některé z prominentních algoritmů pro binování jsou popsány níže.

TETRA

TETRA je statistický klasifikátor, který používá vzorce použití tetranukleotidů v genomových fragmentech.[8] Existují čtyři možné nukleotidy DNA, proto tam může být různé fragmenty čtyř po sobě jdoucích nukleotidů; tyto fragmenty se nazývají tetramery. TETRA funguje tak, že uvádí tabulky frekvencí každého tetrameru pro danou sekvenci. Z těchto frekvencí z-skóre poté se vypočítají, což ukazuje, jak nadměrně nebo nedostatečně zastoupený tetramer je v kontrapozici s tím, co by se dalo očekávat při pohledu na jednotlivé nukleotidové kompozice. Z-skóre pro každý tetramer jsou sestavena do vektoru a vektory odpovídající různým sekvencím jsou porovnány po párech, aby se získala míra toho, jak podobné jsou různé sekvence ze vzorku. Očekává se, že nejpodobnější sekvence patří organismům ve stejné OTU.

MEGAN

V DIAMONDU[9]+ MEGAN[10] přístup, všechna čtení se nejprve srovnají s referenční databází proteinů, jako je NCBI-nr, a poté se výsledná seřazení analyzují pomocí naivního algoritmu LCA, který umístí čtení na nejnižší taxonomický uzel v taxonomii NCBI, který leží nad všemi taxony ke kterému má čtení významné zarovnání. Zde je zarovnání obvykle považováno za „významné“, pokud jeho bitové skóre leží nad danou prahovou hodnotou (která závisí na délce čtení) a je do 10%, řekněme, nejlepšího skóre pozorovaného pro toto čtení. Důvodem použití proteinových referenčních sekvencí, spíše než DNA referenčních sekvencí, je to, že současné referenční databáze DNA pokrývají jen malou část skutečné rozmanitosti genomů, které existují v prostředí.

Phylopythia

Phylopythia je klasifikátor pod dohledem vyvinutý vědci v laboratořích IBM a je v zásadě podporovat vektorový stroj trénovaný DNA-kmery ze známých sekvencí.[5]

ZVLÁŠTNÍ POLOŽKY

SOrt-ITEMS (Monzoorul et al., 2009) [11] je algoritmus binning založený na zarovnání vyvinutý společností Innovations Labs společnosti Tata Consultancy Services (TCS) Ltd., Indie. Uživatelé musí provést vyhledávání podobnosti vstupních metagenomických sekvencí (čtení) proti proteinové databázi nr pomocí vyhledávání BLASTx. Vygenerovaný výstup blastxu je poté považován za vstup programem SOrt-ITEMS. Metoda používá řadu prahových hodnot parametru zarovnání BLAST k první identifikaci příslušné taxonomické úrovně (nebo pořadí), kde lze přiřadit čtení. Pro konečné přiřazení metagenomického čtení je poté přijat přístup založený na ortologii. Mezi další algoritmy binningu založené na zarovnání vyvinuté Innovation Labs společnosti Tata Consultancy Services (TCS) patří DiScRIBinATE,[12] Poskytnout [13] a SPHINX.[14] Metodiky těchto algoritmů jsou shrnuty níže.

ROZDĚLAT

DiScRIBinATE (Ghosh et al., 2010) [12] je algoritmus binning založený na ustavení vyvinutý společností Innovations Labs společnosti Tata Consultancy Services (TCS) Ltd., Indie. DiScRIBinATE nahrazuje ortologický přístup SOrt-ITEMS rychlejším přístupem „bez zarovnání“. Bylo pozorováno začlenění této alternativní strategie, aby se snížil čas binningu na polovinu bez jakékoli významné ztráty přesnosti a specificity úkolů. Kromě toho se zdálo, že nová reklasifikační strategie začleněná do DiScRIBinATE snižuje celkovou míru chybné klasifikace.

Poskytnout

ProViDE (Ghosh et al., 2011) [13] je binningový přístup založený na seřazení vyvinutý společností Innovation Labs společnosti Tata Consultancy Services (TCS) Ltd. pro odhad virové rozmanitosti v metagenomických vzorcích. ProViDE používá pro taxonomickou klasifikaci metagenomických sekvencí získaných z datových souborů viromu reverzní ortologický přístup podobný SOrt-ITEMS. Jedná se o přizpůsobenou sadu prahových hodnot parametru BLAST, která je zvláště vhodná pro virové metagenomické sekvence. Tyto prahové hodnoty zachycují vzor divergence sekvencí a nejednotnou taxonomickou hierarchii pozorovanou v různých taxonomických skupinách virové říše / napříč nimi.

PCAHIER

PCAHIER (Zheng et al., 2010),[15] další binningový algoritmus vyvinutý Gruzínským technologickým institutem., jako funkce využívá frekvence n-merních oligonukleotidů a přijímá hierarchický klasifikátor (PCAHIER) pro binování krátkých metagenomických fragmentů. Analýza hlavních komponent byla použita ke snížení vysoké dimenze prostoru funkcí. Účinnost PCAHIER byla prokázána srovnáním s nehierarchickým klasifikátorem a dvěma existujícími binningovými algoritmy (TETRA a Phylopythia).

SFINGA

SPHINX (Mohammed et al., 2011),[14] další binningový algoritmus vyvinutý Innovation Labs společnosti Tata Consultancy Services (TCS) Ltd., přijímá hybridní strategii, která dosahuje vysoké účinnosti binningu pomocí principů binningových algoritmů založených na „složení“ i „zarovnání“. Tento přístup byl navržen s cílem analyzovat metagenomické datové soubory tak rychle jako přístupy založené na složení, ale přesto s přesností a specifičností algoritmů založených na zarovnání. Bylo pozorováno, že SPHINX klasifikuje metagenomické sekvence stejně rychle jako algoritmy založené na kompozici. Kromě toho bylo pozorováno, že účinnost binningu (pokud jde o přesnost a specifičnost přiřazení) SPHINX je srovnatelná s výsledky získanými pomocí algoritmů založených na zarovnání.

INDUS[16] a TWARIT[17]

Představují další binningové algoritmy založené na složení vyvinuté Innovation Labs společnosti Tata Consultancy Services (TCS) Ltd. Tyto algoritmy využívají řadu kompozičních (i statistických) parametrů oligonukleotidů ke zlepšení doby binování při zachování přesnosti a specificity taxonomických přiřazení.

Další algoritmy

Tento seznam není vyčerpávající:

  • TACOA (Diaz et al., 2009)
  • Parallel-META (Su et al., 2011)
  • PhyloPythiaS (Patil et al., 2011)
  • RITA (MacDonald et al., 2012)[18]
  • BiMeta (Le et al., 2015) [19]
  • MetaPhlAn (Segata et al., 2012)[20]
  • SeMeta (Le et al., 2016) [21]
  • Quikr (Koslicki et al., 2013)[22]
  • Taxoner (Pongor et al., 2014)[23]

Všechny tyto algoritmy používají různá schémata pro sekvence binování, například hierarchická klasifikace a působí buď v a pod dohledem nebo bez dozoru způsob. Tyto algoritmy poskytují globální pohled na to, jak rozmanité jsou vzorky, a mohou potenciálně propojit složení a funkci komunity v metagenomech.

Reference

  1. ^ Daniel, Rolf (01.06.2005). "Metagenomika půdy". Příroda Recenze Mikrobiologie. 3 (6): 470–478. doi:10.1038 / nrmicro1160. ISSN  1740-1526. PMID  15931165. S2CID  32604394.
  2. ^ Wooley, John C .; Adam Godzik; Iddo Friedberg (2010-02-26). "Primer na metagenomice". PLOS Comput Biol. 6 (2): e1000667. Bibcode:2010PLSCB ... 6E0667W. doi:10.1371 / journal.pcbi.1000667. PMC  2829047. PMID  20195499.
  3. ^ Thomas, T .; Gilbert, J .; Meyer, F. (2012). „Metagenomika - průvodce od vzorkování po analýzu dat“. Mikrobiální informatika a experimentování. 2 (1): 3. doi:10.1186/2042-5783-2-3. PMC  3351745. PMID  22587947.
  4. ^ Giovannoni, Stephen J .; Theresa B. Britschgi; Craig L. Moyer; Katharine G. Field (03.05.1990). „Genetická rozmanitost v bakterioplanktonu Sargasového moře“. Příroda. 345 (6270): 60–63. Bibcode:1990 Natur.345 ... 60G. doi:10.1038 / 345060a0. PMID  2330053. S2CID  4370502.
  5. ^ A b McHardy, Alice Carolyn; Hector Garcia Martin; Aristotelis Tsirigos; Philip Hugenholtz; Isidore Rigoutsos (leden 2007). "Přesná fylogenetická klasifikace fragmentů DNA s proměnnou délkou". Přírodní metody. 4 (1): 63–72. doi:10.1038 / nmeth976. ISSN  1548-7091. PMID  17179938. S2CID  28797816.
  6. ^ Karlin, S .; I. Ladunga; B. E. Blaisdell (1994). „Heterogenita genomů: míry a hodnoty“. Sborník Národní akademie věd. 91 (26): 12837–12841. Bibcode:1994PNAS ... 9112837K. doi:10.1073 / pnas.91.26.12837. PMC  45535. PMID  7809131.
  7. ^ Mande, Sharmila S .; Monzoorul Haque Mohammed; Tarini Shankar Ghosh (2012). "Klasifikace metagenomických sekvencí: metody a výzvy". Briefings in Bioinformatics. 13 (6): 669–81. doi:10.1093 / bib / bbs054. PMID  22962338.
  8. ^ Teeling, Hanno; Jost Waldmann; Thierry Lombardot; Margarete Bauer; Frank Glockner (2004). „TETRA: webová služba a samostatný program pro analýzu a srovnání vzorců používání tetranukleotidů v sekvencích DNA“. BMC bioinformatika. 5 (1): 163. doi:10.1186/1471-2105-5-163. PMC  529438. PMID  15507136.
  9. ^ Buchfink, Xie and Huson (2015). Msgstr "Rychlé a citlivé sladění proteinů pomocí DIAMOND". Přírodní metody. 12 (1): 59–60. doi:10.1038 / nmeth.3176. PMID  25402007. S2CID  5346781.
  10. ^ Huson, Daniel H; S. Beier; I. Flade; A. Gorska; M. El-Hadidi; H. Ruscheweyh; R. Tappu (2016). „Komunitní vydání MEGAN - interaktivní průzkum a analýza rozsáhlých dat o sekvenování mikrobiomů“. PLOS výpočetní biologie. 12 (6): e1004957. Bibcode:2016PLSCB..12E4957H. doi:10.1371 / journal.pcbi.1004957. PMC  4915700. PMID  27327495.
  11. ^ Haque M, Monzoorul; Tarini Shankar Ghosh; Dinakar Komanduri; Sharmila S Mande (2009). „SOrt-ITEMS: Sequence orthology based approach for improved taxonomic estimation of metagenomic sequence“. Bioinformatika. 25 (14): 1722–30. doi:10.1093 / bioinformatika / btp317. PMID  19439565.
  12. ^ A b Ghosh, Tarini Shankar; Monzoorul Haque M; Sharmila S Mande (2010). „DiScRIBinATE: rychlá metoda pro přesnou taxonomickou klasifikaci metagenomických sekvencí“. BMC bioinformatika. 11 (S7): S14. doi:10.1186 / 1471-2105-11-s7-s14. PMC  2957682. PMID  21106121.
  13. ^ A b Ghosh, Tarini Shankar; Monzoorul Haque Mohammed; Dinakar Komanduri; Sharmila S Mande (2011). „ProViDE: Softwarový nástroj pro přesný odhad virové diverzity v metagenomických vzorcích“. Bioinformace. 6 (2): 91–94. doi:10.6026/97320630006091. PMC  3082859. PMID  21544173.
  14. ^ A b Mohammed, Monzoorul Haque; Tarini Shankar Ghosh; Nitin Kumar Singh; Sharmila S Mande (2011). "SPHINX - algoritmus pro taxonomické binování metagenomických sekvencí". Bioinformatika. 27 (1): 22–30. doi:10.1093 / bioinformatika / btq608. PMID  21030462.
  15. ^ Zheng, Hao; Hongwei Wu (2010). "Krátké prokaryotické sdružování fragmentů DNA pomocí hierarchického klasifikátoru založeného na lineární diskriminační analýze a analýze hlavních komponent". J Bioinform Comput Biol. 8 (6): 995–1011. doi:10.1142 / s0219720010005051. PMID  21121023.
  16. ^ Mohammed, Monzoorul Haque; Tarini Shankar Ghosh; Rachamalla Maheedhar Reddy; CV Reddy; Nitin Kumar Singh; Sharmila S Mande (2011). „INDUS - přístup založený na složení pro rychlou a přesnou taxonomickou klasifikaci metagenomických sekvencí“. BMC Genomics. 12 (S3): S4. doi:10.1186 / 1471-2164-12-s3-s4. PMC  3333187. PMID  22369237.
  17. ^ Reddy, Rachamalla Maheedhar; Monzoorul Haque Mohammed; Sharmila S Mande (2013). „TWARIT: extrémně rychlý a efektivní přístup k fylogenetické klasifikaci metagenomických sekvencí“. Gen. 505 (2): 259–65. doi:10.1016 / j.gene.2012.06.014. PMID  22710135.
  18. ^ MacDonald, Norman J .; Donovan H. Parks; Robert G. Beiko (2012). „Metagenomická mikrobiální komunitní profilování pomocí jedinečných markerových genů specifických pro clade“. Výzkum nukleových kyselin. 40 (14): e111. doi:10.1093 / nar / gks335. PMC  3413139. PMID  22532608.
  19. ^ Van Vinh, Le, Van Lang, Tran a Tran Van Hoai. „Dvoufázový binovací algoritmus využívající frekvenci l-mer na skupiny nepřekrývajících se čtení.“ Algorithms for Molecular Biology 10.1 (2015): 1.
  20. ^ Nicola, Segata; Levi Waldron; Annalisa Ballarini; Vagheesh Narasimhan; Olivier Jousson; Curtis Huttenhower (2012). „Metagenomická mikrobiální komunitní profilování pomocí jedinečných markerových genů specifických pro clade“. Přírodní metody. 9 (8): 811–814. doi:10.1038 / nmeth.2066. PMC  3443552. PMID  22688413.
  21. ^ Van Vinh, Le, Van Lang, Tran a Tran Van Hoai. "Nový částečně podřízený algoritmus pro taxonomické přiřazení metagenomických čtení". BMC bioinformatics, 17 (1), 2016.
  22. ^ Koslicki, David; Simon Foucart; Gail Rosen (2013). „Quikr: metoda pro rychlou rekonstrukci bakteriálních komunit pomocí tlakového snímání“. Bioinformatika. 29 (17): 2096–2102. doi:10.1093 / bioinformatika / btt336. PMID  23786768.
  23. ^ Pongor, Lőrinc; Roberto Vera; Balázs Ligeti1 (2014). „Rychlé a citlivé zarovnání sekvenování mikrobiálního celého genomu čte do velkých sekvenčních datových souborů na stolním počítači: aplikace na metagenomické datové soubory a identifikace patogenu“. PLOS ONE. 9 (7): e103441. Bibcode:2014PLoSO ... 9j3441P. doi:10.1371 / journal.pone.0103441. PMC  4117525. PMID  25077800.