Fylogenetická inference pomocí transkriptomických dat - Phylogenetic inference using transcriptomic data
v molekulární fylogenetika, vztahy mezi jednotlivci jsou určovány pomocí charakterových rysů, jako jsou DNA, RNA nebo protein, které lze získat pomocí různých sekvenování technologie. Vysoký výkon sekvenování nové generace se stala populární technika v transkriptomice, které představují snímek genové exprese. v eukaryoty, dělat fylogenetické závěry pomocí RNA je komplikováno alternativní sestřih, který produkuje více přepisy od jednoho gen. Jako takové lze ke zlepšení použít různé přístupy fylogenetická inference pomocí transkriptomických dat získáno od RNA-sekv a zpracovány pomocí výpočetní fylogenetika.
Pořizování sekvence
Bylo jich několik transkriptomické technologie slouží ke shromažďování informací o sekvenci na přepisy. Nejčastěji se však používá RNA-sekv.
RNA-sekv
Čtení RNA lze získat pomocí různých metod RNA-seq.
Veřejné databáze
Existuje celá řada veřejné databáze které obsahují volně dostupná data RNA-Seq.
Shromáždění
Sekvenční sestava
Data RNA-Seq mohou být přímo sestavena do přepisy použitím sestava sekvence. Dvě hlavní kategorie sestava sekvence jsou často rozlišovány:
- de novo transkriptomová sestava - zvláště důležité, když referenční genom není pro danou položku k dispozici druh.
- Sestava vedená genomem (někdy mapování nebo sestava vedená referencemi) - je schopná použít již existující odkaz k vedení sestavy přepisů
Obě metody se pokoušejí generovat biologicky reprezentativní konstrukty na úrovni izoformy z dat RNA-seq a obecně se pokoušejí asociovat izoformy s konstruktem na genové úrovni. Správná identifikace konstruktů na genové úrovni však může být nedávno komplikována duplikace, paralogy, alternativní sestřih nebo genové fúze. Tyto komplikace mohou také způsobit následné problémy během ortologické inference. Při výběru nebo generování sekvenčních dat je také důležité vzít v úvahu typ tkáně, vývojové stádium a podmínky prostředí organismů. Protože přepis představuje snímek z genová exprese, drobné změny těchto podmínek mohou významně ovlivnit, které přepisy jsou vyjádřeny. To může nepříznivě ovlivnit následnou ortologovou detekci.[1]
Veřejné databáze
RNA lze také získat z veřejných databází, jako je GenBank, RefSeq, 1000 rostlin (1 kB) a 1KITE. Veřejné databáze potenciálně nabízejí kurátorské sekvence, které mohou zlepšit kvalitu závěrů a vyhnout se související výpočetní režii sestava sekvence.
Odvození ortologie / paralogie genových párů
Přístupy
Ortologie nebo paralela závěry vyžadují posouzení sekvenční homologie, obvykle prostřednictvím zarovnání sekvence. Fylogenetické analýzy a zarovnání sekvence jsou často považovány společně, protože fylogenetické analýzy používají DNA nebo RNA vyžadují zarovnání sekvence a samotné zarovnání často představují určitou hypotézu homologie. Protože správná ortologická identifikace je pro fylogenetické analýzy stěžejní, existuje řada metod k odvození ortology a paralogy.[2]
Tyto metody se obecně rozlišují buď jako algoritmy založené na grafech, nebo jako algoritmy založené na stromech. Některé příklady grafových metod zahrnují InParanoid,[3] MultiParanoid,[4] OrthoMCL,[5] HomoloGene[6] a OMA.[7] Algoritmy založené na stromech zahrnují programy jako OrthologID nebo RIO.[8][2]
Různé VÝBUCH k detekci se často používají metody ortology mezi druh jako součást algoritmů založených na grafech, jako jsou MegaBLAST, BLASTALL nebo jiné formy BLAST vše proti všem a mohou být nukleotid - nebo protein -na základě zarovnání.[9][10] RevTrans[11] dokonce použije údaje o bílkovinách k informování o seřazení DNA, což může být přínosné pro řešení vzdálenějších fylogenetických vztahů. Tyto přístupy často předpokládají, že nejlepší reciproční zásahy procházející určitou prahovou metrikou, jako je identita, E-hodnota nebo procentuální zarovnání, představují ortology a může být zmaten neúplné třídění řádků.[12][13]
Databáze a nástroje
Je důležité si uvědomit, že ortologické vztahy ve veřejných databázích obvykle představují ortologii na genové úrovni a neposkytují informace o konzervovaných alternativní varianty sestřihu.
Databáze, které obsahují nebo detekují ortologické vztahy, zahrnují:
Zarovnání více sekvencí
Tak jako eukaryotická transkripce je složitý proces, kterým se násobí přepisy mohou být generovány z jednoho gen přes alternativní sestřih s proměnnou výraz, využití RNA je komplikovanější než DNA. Nicméně, přepisy jejich sekvence je levnější než úplné genomy a lze je získat bez použití již existujících referenční genom.[1]
To není neobvyklé přeložit Sekvence RNA do proteinové sekvence při použití transkriptomických dat, zejména při analýze vysoce odlišných taxonů. Toto je intuitivní krok, protože se očekává, že se bude kódovat mnoho (ale ne všechny) přepisy proteinové izoformy. Mezi potenciální výhody patří snížení zkreslení mutací a snížený počet znaků, což může urychlit analýzy. Toto snížení znaků však může také vést ke ztrátě potenciálně informativních znaků.[1]
Existuje celá řada dostupné nástroje pro zarovnání více sekvencí. Všechny mají své vlastní silné a slabé stránky a mohou se specializovat na odlišné typy sekvencí (DNA, RNA nebo protein). Jako takový může být srovnávač s ohledem na sestřih ideální pro seřazení sekvencí RNA, zatímco srovnávač, který uvažuje proteinová struktura nebo míry substituce reziduí může být výhodnější pro data přeložené RNA sekvence.
Příležitosti a omezení
Používání RNA pro fylogenetickou analýzu přichází s vlastní jedinečnou sadou silných a slabých stránek.
Výhody
- velká sada znaků
- nákladově efektivní
- není závislý na a referenční genom
Nevýhody
- výdaje na rozsáhlé vzorkování taxonů
- potíže s identifikací přepisů v plné délce a v jedné kopii a ortology
- potenciální nesprávné sestavení přepisů (zejména pokud jsou k dispozici duplikáty)
- chybějící data jako produkt transkriptomu představující snímek výrazu nebo neúplné třídění řádků[14]
Viz také
Reference
- ^ A b C Hörandl, Elvira; Appelhans, Mark (2015). Sekvenování nové generace v systematice rostlin. Vědecké knihy Koeltz. ISBN 9783874294928.
- ^ A b Salichos, Leonidas; Rokas, Antonis; Fairhead, Cecile (13. dubna 2011). „Vyhodnocení ortologických predikčních algoritmů v kvasinkovém modelu“. PLOS ONE. 6 (4): e18755. doi:10.1371 / journal.pone.0018755. PMC 3076445. PMID 21533202.
- ^ Ostlund, G .; Schmitt, T .; Forslund, K .; Kostler, T .; Messina, D. N .; Roopra, S .; Frings, O .; Sonnhammer, E. L. L. (5. listopadu 2009). „InParanoid 7: nové algoritmy a nástroje pro eukaryotickou ortologickou analýzu“. Výzkum nukleových kyselin. 38 (Databáze): D196 – D203. doi:10.1093 / nar / gkp931. PMC 2808972. PMID 19892828.
- ^ Alexeyenko, A .; Tamas, I .; Liu, G .; Sonnhammer, E. L.L. (27. července 2006). "Automatické shlukování ortologů a inparalogů sdílených více proteomy". Bioinformatika. 22 (14): e9 – e15. doi:10.1093 / bioinformatika / btl213.
- ^ Li, L. (1. září 2003). „OrthoMCL: Identifikace ortologických skupin pro eukaryotické genomy“. Výzkum genomu. 13 (9): 2178–2189. doi:10,1101 / gr. 1224503. PMC 403725. PMID 12952885.
- ^ Sayers, E. W .; Barrett, T .; Benson, D. A .; Bolton, E .; Bryant, S. H .; Canese, K .; Chetvernin, V .; Church, D. M .; DiCuccio, M .; Federhen, S .; Feolo, M .; Fingerman, I.M .; Geer, L. Y .; Helmberg, W .; Kapustin, Y .; Landsman, D .; Lipman, D. J .; Lu, Z .; Madden, T. L .; Madej, T .; Maglott, D. R .; Marchler-Bauer, A .; Miller, V .; Mizrachi, I .; Ostell, J .; Panchenko, A .; Phan, L .; Pruitt, K. D .; Schuler, G. D .; Sequeira, E .; Sherry, S. T .; Shumway, M .; Sirotkin, K .; Slotta, D .; Souvorov, A .; Starchenko, G .; Tatusová, T. A .; Wagner, L .; Wang, Y .; Wilbur, W. J .; Yaschenko, E .; Ye, J. (21. listopadu 2010). „Databázové zdroje Národního centra pro biotechnologické informace“. Výzkum nukleových kyselin. 39 (Databáze): D38 – D51. doi:10.1093 / nar / gkq1172. PMC 3013733. PMID 21097890.
- ^ Altenhoff, A. M .; kunca, N .; Glover, N .; Train, C.-M .; Sueki, A .; Pili ota, I .; Gori, K .; Tomiczek, B .; Muller, S .; Redestig, H .; Gonnet, G. H .; Dessimoz, C. (15. listopadu 2014). „Ortologická databáze OMA v roce 2015: předpovědi funkcí, lepší podpora rostlin, zobrazení syntény a další vylepšení“. Výzkum nukleových kyselin. 43 (D1): D240 – D249. doi:10.1093 / nar / gku1158.
- ^ Zmasek, Christian M; Eddy, Sean R (2002). „RIO: Analýza proteomů automatizovanou fylogenomikou pomocí převzorkovaného závěru ortologů“. BMC bioinformatika. 3 (1): 14. doi:10.1186/1471-2105-3-14.
- ^ Barker, M. S .; Vogel, H .; Schranz, M. E. (5. října 2009). „Paleopolyploidy in Brassicales: Analýzy Cleome transkriptomu objasňují historii duplikací genomu u Arabidopsis a dalších Brassicales“. Biologie genomu a evoluce. 1: 391–399. doi:10.1093 / gbe / evp040.
- ^ Yang, Xu; Cheng, Yu-Fu; Deng, Cao; Ma, Yan; Wang, Zhi-Wen; Chen, Xue-Hao; Xue, Lin-Bao (2014). „Srovnávací transkriptomová analýza lilku (Solanum melongena L.) a krůtového bobu (Solanum torvum Sw.): Fylogenomika a analýza odolnosti vůči chorobám“. BMC Genomics. 15 (1): 412. doi:10.1186/1471-2164-15-412.
- ^ Wernersson, R. (1. července 2003). "RevTrans: vícenásobné vyrovnání kódující DNA ze seřazených aminokyselinových sekvencí". Výzkum nukleových kyselin. 31 (13): 3537–3539. doi:10.1093 / nar / gkg609.
- ^ Moreno-Hagelsieb, G .; Latimer, K. (26. listopadu 2007). „Výběr možností BLAST pro lepší detekci ortologů jako vzájemných nejlepších zásahů“. Bioinformatika. 24 (3): 319–324. doi:10.1093 / bioinformatika / btm585.
- ^ Castillo-Ramírez, Santiago; González, Víctor (2008). "Faktory ovlivňující shodu mezi ortologickými genovými stromy a druhovými stromy v bakteriích". BMC Evoluční biologie. 8 (1): 300. doi:10.1186/1471-2148-8-300.
- ^ Wen, červen; Xiong, Zhiqiang; Nie, Ze-Long; Mao, Likai; Zhu, Yabing; Kan, Xian-Zhao; Ickert-Bond, Stefanie M .; Gerrath, Jean; Zimmer, Elizabeth A .; Fang, Xiao-Dong; Candela, Hector (17. září 2013). „Transkriptomové sekvence řeší hluboké vztahy rodiny Grapeů“. PLOS ONE. 8 (9): e74394. doi:10.1371 / journal.pone.0074394. PMC 3775763. PMID 24069307.