Fylogenetické invarianty - Phylogenetic invariants
Fylogenetické invarianty[1] jsou polynomiální vztahy mezi frekvencemi různých vzorů stránek v idealizované DNA vícenásobné zarovnání sekvence. Obdrželi rozsáhlé studium v oboru biomatematika a lze je použít k výběru mezi topologiemi fylogenetických stromů v empirickém prostředí. Hlavní výhodou fylogenetické invarianty ve srovnání s jinými metodami fylogenetického odhadu maximální pravděpodobnost nebo Bayesian MCMC analýzy spočívají v tom, že invarianty mohou přinést informace o stromu, aniž by vyžadovaly odhad délek větví parametrů modelu. Myšlenku používat fylogenetické invarianty představili nezávisle James Cavender a Joseph Felsenstein[2] a tím James A. Lake[3] v roce 1987.
V tomto okamžiku je počet programů, které umožňují analyzovat empirické datové sady pomocí invariantů, omezený. Fylogenetické invarianty však mohou poskytnout řešení dalších problémů ve fylogenetice a z tohoto důvodu představují oblast aktivního výzkumu. Felsenstein[4] prohlásil to nejlépe, když řekl: „Invarianty stojí za pozornost, ne za to, co pro nás dělají nyní, ale k čemu by mohly vést v budoucnu.“ (str. 390)
Pokud vezmeme v úvahu zarovnání více sekvencí s t taxony a žádné mezery nebo chybějící údaje (tj idealizované zarovnání více sekvencí), existují 4t možné vzory stránek. Například pro čtyři taxony existuje 256 možných vzorů stránek (FAAAA, FAAAC, FAAAG, … FTTTT), který lze zapsat jako vektor. Tento vektorový vzor frekvence webu má 255 stupňů volnosti, protože frekvence musí být součtem jedné. Jakákoli sada frekvencí vzorů stránek, která vyplynula z nějakého konkrétního procesu vývoje sekvence na konkrétním stromu, se však musí řídit mnoha omezeními. a proto mají mnohem méně stupňů volnosti. Měly by tedy existovat polynomy zahrnující ty frekvence, které nabývají hodnoty nula, pokud byly sekvence DNA generovány na konkrétním stromu s daným konkrétním substituční model.
Invarianty jsou vzorce v očekávaných vzorcích, nikoli ve sledovaných vzorcích. Když se počítají pomocí pozorovaných vzorových frekvencí, obvykle zjistíme, že nejsou přesně nulové, i když jsou model a stromová topologie správné. Testováním, zda jsou takové polynomy pro různé stromy „téměř nulové“ při hodnocení na pozorovaných frekvencích vzorů v reálných datových sekvencích, by mělo být možné odvodit, který strom nejlépe vysvětluje data.
Některé invarianty jsou přímými důsledky symetrií v modelu substituce nukleotidů a budou mít hodnotu nula bez ohledu na topologii stromu. Například pokud předpokládáme Jukes-Cantorův model vývoje sekvence a strom se čtyřmi taxony, který očekáváme:
Jedná se o jednoduchý důsledek skutečnosti, že základní frekvence jsou podle modelu Jukes-Cantor omezeny na stejnou hodnotu. Tak se jim říká symetrické invarianty. Rovnice uvedená výše je pouze jedním z velkého počtu invariantů symetrie pro model Jukes-Cantor; ve skutečnosti pro tento model existuje celkem 241 invariantů symetrie.
Kategorie vzorů stránek | Příklad vzoru webu | Počet typů vzorů | Počet vzorků | Výsledek celkem invarianty |
---|---|---|---|---|
4x | xxxx (např. AAAA, CCCC, ...) | 1 | 4 | 3 |
3x, 1 rok | xxxy (např. AAAC, AACA, ...) | 4 | 12 | 44 |
2x, 2r | xxyy (např. AACC, ACCA, ...) | 3 | 12 | 33 |
2x, 1r, 1z | xxyz (např. AACG, ACGA, ...) | 6 | 24 | 138 |
1x, 1y, 1z, 1w | xyzw (např. ACGT, CGTA, ...) | 1 | 24 | 23 |
Součty = | 15 | 241 |
Symetrické invarianty jsou nefylogenetické povahy; přebírají očekávanou hodnotu nula bez ohledu na topologii stromu. Je však možné určit, zda konkrétní zarovnání více sekvencí odpovídá evolučnímu modelu Jukes-Cantor (tj. Testováním, zda jsou vzory míst příslušných typů přítomny ve stejném počtu). Jsou také možné obecnější testy pro nejvhodnější model využívající invarianty. Například Kedzierska et al. 2012[5] použity invarianty k vytvoření nejvhodnějšího modelu z konkrétní sady modelů.
Zkratka modelu | Celý název modelu |
---|---|
JC69 * | Jukes-Cantor |
K80 * | Kimura dva parametry |
K81 * | Kimura tři parametry |
SSM (CS05) | Model specifický pro jednotlivé prameny |
GMM | Obecný Markovův model |
Hvězdička po modelech JC69, K80 a K81 se používá ke zdůraznění nehomogenní povahy modelů, které lze zkoumat pomocí invarianty. Tyto nehomogenní modely zahrnují běžně používané modely JC69, K80 a K81 s nepřetržitým časem jako submodely. SSM (model specifický pro vlákno[6] nebo CS05[7]) je zobecněná nehomogenní verze modelu HKY (Hasegawa-Kishino-Yano)[8] nuceni mít stejné rozdělení dvojic bází A, T a C, G v každém uzlu stromu a žádný předpoklad týkající se stabilního rozdělení základen. Všechny výše uvedené modely jsou submodely obecného Markovova modelu[9] (GMM). Schopnost provádět testy pomocí nehomogenních modelů představuje hlavní výhodu invariantních metod ve srovnání s běžněji používanými metodami maximální pravděpodobnosti pro testování fylogenetických modelů.
Fylogenetické invarianty, které jsou definovány jako podmnožina invarianty, které nabývají nulové hodnoty pouze v případě, že sekvence byly (nebo nebyly) generovány na konkrétní topologii, jsou pravděpodobně nejužitečnějšími invarianty pro fylogenetické studie. .
Lakeovy lineární invarianty
Lakeovy invarianty (které nazval „evoluční šetrnost“) jsou vynikajícím příkladem fylogenetických invariantů. Lakeovy invarianty zahrnují kvartety, z nichž dva (nesprávné topologie) přinášejí hodnoty nula a jeden z nich poskytuje hodnotu větší než nula. To lze použít k vytvoření testu založeného na následujícím invariantním vztahu, který platí pro dva nesprávné stromy, když se stránky vyvíjejí podle Kimurova dvouparametrického modelu vývoje sekvence:
Indexy těchto frekvencí vzorů lokalit označují bazy skórované vzhledem k základně v prvním taxonu (kterému říkáme taxon A). Pokud je základna 1 a purin, pak báze 2 je další purin a báze 3 a 4 jsou pyrimidiny. Pokud je bází 1 pyrimidin, potom je bází 2 další pyrimidin a. báze 3 a 4 jsou puriny.
Zavoláme tři možné kvartetní stromy TX [TX je ((A, B), (C, D)); v Newick formát ], TY [TY je ((A, C), (B, D)); ve formátu newick] a TZ [TZ je ((A, D), (B, C)); ve formátu newick]. Z dat můžeme vypočítat tři hodnoty, abychom identifikovali nejlepší topologii vzhledem k datům:
Lake tyto hodnoty rozdělil na „šetrný výraz“ ( pro TX) „základní pojem“ ( pro TX) a navrhuje testování odchylky od nuly výpočtem a provedení a χ2 test s jedním stupeň svobody. Podobné χ2 testy mohou být provedeny pro Y a Z. Pokud je jedna ze tří hodnot výrazně odlišná od nuly, odpovídající topologie je nejlepším odhadem fylogeneze. Výhodou použití Lakeových invariantů vzhledem k maximální pravděpodobnosti nebo soused se připojí dvouparametrových vzdáleností Kimura je, že invarianty by měly držet bez ohledu na parametry modelu, délky větví nebo vzory heterogenity mezi místy.
Jak lze očekávat u jakékoli fylogenetické metody založené na modelu Kimura s dvěma parametry, je fylogenetický odhad pomocí Lakeových invariants nekonzistentní, když model, který generoval data, silně porušuje model Kimura se dvěma parametry; John Huelsenbeck a David Hillis zjistili, že Lakeovy invarianty jsou konzistentní ve všech prostorech délky větví, které zkoumali v klasické studii[10] kteří zkoumali metody fylogenetického odhadu. Zjistili však také, že Lakeovy invarianty jsou velmi neúčinné (ke konvergenci do správného stromu je zapotřebí velkého množství dat). Tato neúčinnost způsobila, že většina empiriků upustila od používání Lakeových invariantů.
Moderní přístupy využívající fylogenetické invarianty
Nízká účinnost Lakeových invariantů odráží skutečnost, že pro fylogenetické invarianty používala omezenou sadu generátorů. Casanellas a kol.[11] představil metody pro odvození mnohem větší sady generátorů pro data DNA, což vedlo k vývoji invariantních metod, které jsou stejně účinné jako metody maximální věrohodnosti.[12] Některé z těchto metod mají implementace, které jsou praktické pro analýzu empirických datových souborů.
Eriksson[13] navrhl metodu invariants pro obecný Markovův model založený na rozklad singulární hodnoty (SVD) matric generovaných „zploštěním“ nukleotidů asociovaných s každým z listů (tj. Frekvenčním spektrem struktury místa). Pro každou topologii se vyrábějí různé zplošťovací matice. Srovnání původní metody Eriksson SVD (ErikSVD) s připojením sousedů a přístup maximální pravděpodobnosti implementovaný v PHYLIP programový název byl smíchán; Při použití se simulovanými daty ErikSVD nedosahoval dobrých výsledků u ostatních dvou metod, ale zdálo se, že funguje lépe než dnaml při použití na empirický datový soubor savců na základě předčasného vydání dat z ZAKÓDOVAT projekt. Původní metodu ErikSVD vylepšili Fernández-Sánchez a Casanellas,[14] kteří navrhli normalizaci, nazvali Erik + 2. Původní metoda ErikSVD je statisticky konzistentní (konverguje k. Skutečnému stromu. Jak se empirické rozdělení blíží k teoretickému rozdělení); normalizace Erik + 2 zlepšuje výkon metody dané konečné množiny dat. Byl implementován v softwarovém balíčku PAUP * jako možnost pro metodu SVDquartets.
"Squangles" (stochastický quArtet túhly[15]) představuje další příklad metody invariants[16] klobouk byl implementován do softwarového balíčku, který je praktické používat s empirickými datovými sadami. Squangles umožňují volbu mezi třemi možnými kvartety za předpokladu, že se sekvence DNA vyvinuly podle generála Markovův model; kvartety lze poté sestavit pomocí metody supertree. Existují tři kvádry, které jsou užitečné pro rozlišení mezi kvartety, které lze označit jako q1(F), q2f) a q3(f) (f je 256 prvkový vektor obsahující frekvenční spektrum místa). Každý q má 66 744 výrazů a společně splňují lineární vztah q1 + q2 + q3 = 0 (tj. Až do lineární závislosti existují pouze dva q hodnoty). Každé možné kvarteto má jiné očekávané hodnoty pro q1, q2, a q3:
Topologie stromů (newick formát) | Kvartet | E(q1) | E(q2) | E(q3) |
---|---|---|---|---|
((ABECEDA)); | AB | CD (nebo 12 | 34) | 0 | -u | u |
((A, C), (B, D)); | AC | BD (nebo 13 | 24) | proti | 0 | -proti |
((A, D), (B, C)); | AD | BC (nebo 14 | 23) | -w | w | 0 |
Očekávané hodnoty q1, q2, a q3 jsou na hvězdné topologii nulové (kvartet s nulovou délkou vnitřní větve). Z praktických důvodů Holland a kol.[16] použitý nejmenší čtverce vyřešit pro q hodnoty. Empirické testy metody squangles byly omezené[16][17] ale zdá se, že jsou slibné.
Reference
- ^ Allman, E. S. a. Rhodes, J. A., "Phylogenetic invariants, '' in Rekonstrukce evoluce: Nové matematické a výpočetní pokroky, vyd. O. Gascuel a M. Steel. Oxford University Press, 2007, 108--147
- ^ Cavender, James A .; Felsenstein, Joseph (březen 1987). „Invarianty fylogenií v jednoduchém případě s diskrétními stavy“. Journal of Classification. 4 (1): 57–71. doi:10.1007 / BF01890075. ISSN 0176-4268.
- ^ „Technika nezávislá na rychlosti pro analýzu sekvencí nukleových kyselin: evoluční šetrnost“. Molekulární biologie a evoluce. Březen 1987. doi:10.1093 / oxfordjournals.molbev.a040433. ISSN 1537-1719.
- ^ A b Felsenstein, Joseph. (2004). Odvozovat fylogeneze. Sunderland, Massachusetts: Sinauer Associates. ISBN 0-87893-177-5. OCLC 52127769.
- ^ A b Kedzierska, A. M .; Drton, M .; Guigo, R .; Casanellas, M. (01.03.2012). "SPIn: Výběr modelu pro fylogenetické směsi pomocí lineárních invariants". Molekulární biologie a evoluce. 29 (3): 929–937. doi:10,1093 / molbev / msr259. ISSN 0737-4038.
- ^ Casanellas M, Sullivant S. (2005) „The strand symetric model,“ v Algebraické statistice pro výpočetní biologii, ed. Pachter L, Sturmfels B., Cambridge University Press (kapitola 16, str. 305-321)
- ^ Pachter L, Sturmfels B. (2005) „Biology“ v algebraické statistice pro výpočetní biologii, ed. Pachter L, Sturmfels B., Cambridge University Press (kapitola 4, str. 125-159)
- ^ Hasegawa, Masami; Kishino, Hirohisa; Yano, Taka-aki (říjen 1985). „Datování štěpení lidoopů molekulárními hodinami mitochondriální DNA“. Journal of Molecular Evolution. 22 (2): 160–174. doi:10.1007 / BF02101694. ISSN 0022-2844.
- ^ Barry, D., a Hartigan, J. A. (1987). Statistická analýza hominoidního molekulárního vývoje. Statistická věda, 2(2), 191-207.
- ^ Huelsenbeck, J. P .; Hillis, D. M. (01.09.1993). „Úspěch fylogenetických metod v případě čtyř taxonu“. Systematická biologie. 42 (3): 247–264. doi:10.1093 / sysbio / 42.3.247. ISSN 1063-5157.
- ^ Casanellas M, Sullivant S. Pachter L, Sturmfels B. (2005) Katalog malých stromů, algebraická statistika pro výpočetní biologii. Kapitola 15, Cambridge (UK) Cambridge University Press
- ^ Casanellas, M; Fernández-Sánchez, J (leden 2007). „Výkon nové metody invarianty na homogenních a nehomogenních stromech kvarteta“. Molekulární biologie a evoluce. 24 (1): 288–293. doi:10.1093 / molbev / msl153. ISSN 1537-1719.
- ^ Eriksson N. (2005) „Konstrukce stromu pomocí rozkladu singulární hodnoty,“ v Algebraické statistice pro výpočetní biologii, ed. Pachter L, Sturmfels B., Cambridge University Press (kapitola 19, str. 347-358)
- ^ Fernández-Sánchez, Jesús; Casanellas, Marta (březen 2016). „Invariant versus klasický kvartetový závěr, když je evoluce heterogenní napříč weby a liniemi“. Systematická biologie. 65 (2): 280–291. doi:10.1093 / sysbio / syv086. ISSN 1063-5157.
- ^ Sumner J.G .. Zapletení, invarianty a fylogenetika, 2006 [Ph.D. práce] University of Tasmania. Dostupné z: URL http://eprints.utas.edu.au/709/
- ^ A b C d Holland, Barbara R .; Jarvis, Peter D .; Sumner, Jeremy G. (01.01.2013). „Fylogenetická inference s nízkými parametry podle obecného Markovova modelu“. Systematická biologie. 62 (1): 78–92. doi:10.1093 / sysbio / sys072. ISSN 1076-836X.
- ^ Reddy, Sushma; Kimball, Rebecca T .; Pandey, Akanksha; Hosner, Peter A .; Braun, Michael J .; Hackett, Shannon J .; Han, Kin-Lan; Harshman, John; Huddleston, Christopher J .; Kingston, Sarah; Marks, Ben D. (září 2017). „Proč sady fylogenomických dat poskytují konfliktní stromy? Datový typ ovlivňuje ptačí strom života více než vzorkování taxonu“. Systematická biologie. 66 (5): 857–879. doi:10.1093 / sysbio / syx041. ISSN 1063-5157.