Rekonstrukce předků - Ancestral reconstruction
Rekonstrukce předků (také známý jako Mapování znaků nebo Optimalizace znaků) je extrapolace zpět v čase od měřených charakteristik jednotlivců (nebo populací) k jejich společné předky. Je to důležitá aplikace fylogenetika, rekonstrukce a studie evoluční vztahy mezi jednotlivci, populacemi nebo druh svým předkům. V kontextu evoluční biologie, rekonstrukci předků lze použít k obnovení různých druhů stavů předků organismů, které žily před miliony let.[1] Mezi tyto státy patří genetická sekvence (rekonstrukce sekvence předků ), aminokyselinová sekvence a protein, složení a genom (např. genový řád), měřitelná charakteristika organismu (fenotyp ) a zeměpisný rozsah populace nebo druhu předků (rekonstrukce rozsahu předků). To je žádoucí, protože nám to umožňuje zkoumat části fylogenetické stromy odpovídá dávné minulosti a objasňuje evoluční historii druhu ve stromu. Protože moderní genetické sekvence jsou v podstatě variace starověkých, přístup ke starověkým sekvencím může identifikovat další variace a organismy, které z těchto sekvencí mohly vzniknout.[2] Kromě genetických sekvencí by se člověk mohl pokusit sledovat změnu jednoho znakového znaku na jiný, jako jsou ploutve obracející se k nohám.
Mezi nebiologické aplikace patří rekonstrukce slovní zásoby nebo fonémů starověké jazyky,[3] a kulturní charakteristiky starověkých společností, jako jsou orální tradice[4] nebo manželské praktiky.[5]
Rekonstrukce předků závisí na dostatečně realistické statistický model evoluce přesně obnovit předkové. Tyto modely využívají genetickou informaci již získanou metodami jako např fylogenetika určit trasu, která vývoj a kdy došlo k evolučním událostem.[6] Bez ohledu na to, jak dobře se model přibližuje skutečné evoluční historii, schopnost člověka přesně rekonstruovat předka se zhoršuje s rostoucí evoluční dobou mezi tímto předkem a jeho pozorovanými potomky. Realističtější modely evoluce jsou navíc nevyhnutelně složitější a obtížně vypočítatelné. Pokrok v oblasti rekonstrukce předků se do značné míry opíral o exponenciální růst výpočetního výkonu a souběžný vývoj efektivních výpočetní algoritmy (např dynamické programování algoritmus pro kloub maximální pravděpodobnost rekonstrukce sekvencí předků).[7] Metody rekonstrukce předků jsou často aplikovány na daný fylogenetický strom která již byla odvozena ze stejných údajů. I když je tento přístup praktický, má tu nevýhodu, že jeho výsledky jsou závislé na přesnosti jediného fylogenetického stromu. Naproti tomu někteří badatelé[8] obhajovat výpočetně náročnější Bayesian přístup, který zohledňuje nejistotu při rekonstrukci stromů hodnocením rekonstrukcí předků u mnoha stromů.
Dějiny
Pojmu rekonstrukce předků se často připisuje Emile Zuckerkandl a Linus Pauling. Motivováno vývojem technik pro stanovení primární (aminokyselinová) sekvence bílkovin o Frederick Sanger v roce 1955,[9] Zuckerkandl a Pauling postulovali[10] že takové sekvence lze použít k odvození nejen fylogeneze týkající se pozorovaných proteinových sekvencí, ale také proteinové sekvence předků v nejranějším bodě (kořenu) tohoto stromu. Myšlenka rekonstrukce předků z měřitelných biologických charakteristik se však již v oblasti kladistika, jeden z předchůdců moderní fylogenetiky. Kladistické metody, které se objevily již v roce 1901, odvozují evoluční vztahy druhů na základě rozdělení sdílených charakteristik, z nichž se podle některých odvozuje od společných předků. Dále Theodoseus Dobžanský a Alfred Sturtevant formuloval principy rekonstrukce předků ve fylogenetickém kontextu v roce 1938, když odvodil evoluční historii chromozomální inverze v Drosophila pseudoobscura.[11]
Rekonstrukce předků má tedy své kořeny v několika oborech. Dnes se výpočetní metody pro rekonstrukci předků stále rozšiřují a používají v různých prostředích, takže stavy předků se nedají odvodit pouze pro biologické vlastnosti a molekulární sekvence, ale také pro strukturu[12][13] nebo katalytické vlastnosti[14] starověký proti moderní bílkoviny zeměpisná poloha populací a druhů (fylogeografie )[15][16] a struktura vyšších řádů genomů.[17]
Metody a algoritmy
Jakýkoli pokus o rekonstrukci předků začíná a fylogeneze. Obecně platí, že fylogeneze je založena na stromech hypotéza o pořadí, ve kterém populace (označované jako taxony ) jsou příbuzní potomkem společných předků. Pozorované taxony jsou reprezentovány tipy nebo koncové uzly stromu, které jsou postupně spojeny větvemi se svými společnými předky, které jsou reprezentovány větvicími body stromu, které se obvykle označují jako rodový nebo vnitřní uzly. Nakonec se všechny linie sbíhají k poslední společný předek celého vzorku taxonů. V souvislosti s rekonstrukcí předků se s fylogenezí často zachází, jako by šlo o známé množství (důležitou výjimkou jsou bayesovské přístupy). Protože může existovat enormní počet fylogenezí, které jsou téměř stejně účinné při vysvětlování dat, může být pohodlným a někdy nezbytným zjednodušujícím předpokladem redukce podmnožiny fylogenií podporovaných daty na jediného zástupce nebo bodový odhad.
Rekonstrukci předků lze považovat za přímý výsledek aplikace hypotetického modelu evoluce na danou fylogenezi. Pokud model obsahuje jeden nebo více volných parametrů, je celkovým cílem odhadnout tyto parametry na základě naměřených charakteristik mezi sledovanými taxony (sekvencemi), které pocházejí ze společných předků. Šetrnost je důležitá výjimka z tohoto paradigmatu: i když se ukázalo, že existují okolnosti, za nichž je odhadem maximální pravděpodobnosti,[18] v jádru je jednoduše založen na heuristice, že změny stavu postavy jsou vzácné, aniž by se pokoušely tuto raritu kvantifikovat.
Existují tři různé třídy metod pro rekonstrukci předků. V chronologickém pořadí podle objevů jsou maximální šetrnost, maximální pravděpodobnost, a Bayesiánský závěr. Maximální šetrnost považuje všechny evoluční události za stejně pravděpodobné; maximální pravděpodobnost odpovídá rozdílné pravděpodobnosti určitých tříd událostí; a Bayeisan inference souvisí podmíněnou pravděpodobnost události s pravděpodobností stromu, stejně jako s mírou nejistoty, která je s tímto stromem spojena. Maximální šetrnost a maximální pravděpodobnost přinášejí jediný nejpravděpodobnější výsledek, zatímco Bayesianova inference odpovídá za nejistoty v datech a poskytuje vzorek možných stromů.
Maximální šetrnost
Šetrnost, hovorově známá jako „Occamova břitva ", odkazuje na princip výběru nejjednodušších konkurenčních hypotéz. V souvislosti s rekonstrukcí předků se snaha najít distribuci stavů předků v rámci daného stromu snaží minimalizovat celkový počet změn stavu znaků, které by byly nutné k vysvětlení stavy pozorované na špičkách stromu. Tato metoda maximální šetrnost[19] je jedním z prvních formalizovaných algoritmů pro rekonstrukci stavů předků a zároveň jedním z nejjednodušších.[13]
Maximální šetrnost může být implementována jedním z několika algoritmů. Jedním z prvních příkladů je Fitchova metoda,[20] který přiřadí stavy předků pomocí šetrnosti dvěma procházeními zakořeněného binární strom. První fáze je a post-order traversal který postupuje od špiček ke kořeni stromu návštěvou potomků (podřízených) uzlů před jejich rodiči. Zpočátku určujeme množinu možných stavů znaků Si pro i-tý předek na základě pozorovaných charakterových stavů jeho potomků. Každý úkol je nastavit křižovatku charakterových stavů potomků předků; pokud je křižovatka prázdná množina, pak je to nastavit unii. V druhém případě se předpokládá, že došlo ke změně stavu znaku mezi předkem a jedním z jeho dvou bezprostředních potomků. Každá taková událost se započítává do nákladové funkce algoritmu, kterou lze použít k rozlišení mezi alternativními stromy na základě maximální šetrnosti. Dále, a předobjednat průchod stromu se postupuje od kořene směrem ke špičkám. Stavy znaků jsou poté přiřazeny každému potomkovi na základě toho, které stavy znaků sdílí se svým rodičem. Protože kořenový adresář nemá žádný nadřazený uzel, může být vyžadováno, aby si libovolně vybral stav znaku, konkrétně když byl v kořenovém adresáři rekonstruován více než jeden možný stav.

Zvažte například fylogenezi získanou pro rod rostlin obsahujících 6 druhů A - F, kde je každá rostlina opylována buď „včelkou“, „kolibříkem“ nebo „větrem“. Jednou zjevnou otázkou je, jaké byly opylovače v hlubších uzlech ve fylogenezi tohoto rodu rostlin. Při maximální šetrnosti rekonstrukce stavu předků u tohoto kmene odhaluje, že „kolibřík“ je nejšetrnějším rodovým stavem u spodního kmene (rostliny D, E, F), který rodový stav uvádí pro uzly v horním kmenu (rostliny A, B, C) jsou nejednoznačné a že oba „kolibříci“ nebo „včelí“ opylovači jsou stejně pravděpodobné pro stav opylování u kořene fylogeneze. Předpokládejme, že máme silné důkazy z fosilních záznamů, že kořenový stav je „kolibřík“. Rozlišení kořene na „kolibříka“ by poskytlo vzor rekonstrukce stavu předků znázorněný symboly v uzlech se stavem vyžadujícím nejméně změn v kroužku.
Metody šetrnosti jsou intuitivně přitažlivé a vysoce efektivní, takže se v některých případech stále používají k nasazení algoritmů optimalizace maximální pravděpodobnosti s počáteční fylogenezí.[21] Základní předpoklad, že evoluce dosáhla určitého konečného výsledku co nejrychleji, je však nepřesný. Přirozený výběr a evoluce nepracují k dosažení cíle, jednoduše se rozhodnou pro nebo proti náhodně se vyskytujícím genetickým změnám. Metody šetrnosti ukládají šest obecných předpokladů: že fylogenetický strom, který používáte, je správný, že máte všechna relevantní data, ve kterých nedošlo k chybám v kódování, že všechny větve fylogenetického stromu se stejně pravděpodobně změní, že rychlost vývoje je pomalá a šance na ztrátu nebo získání charakteristiky je stejná.[1] Ve skutečnosti jsou předpoklady často porušovány, což vede k několika problémům:
- Variace rychlostí evoluce. Fitchova metoda předpokládá, že ke změnám mezi všemi stavy postav dojde stejně dobře; tedy jakékoli změně vzniknou stejné náklady pro daný strom. Tento předpoklad je často nereálný a může omezit přesnost těchto metod.[8] Například, přechody mají tendenci se vyskytovat častěji než transversions ve vývoji nukleových kyselin. Tento předpoklad lze zmírnit přiřazením rozdílových nákladů ke konkrétním změnám stavu znaků, což má za následek vážený algoritmus šetrnosti.[22]
- Rychlý vývoj. Výsledkem heuristiky „minimální evoluce“, která je základem těchto metod, je, že tyto metody předpokládají, že změny jsou vzácný, a proto jsou nevhodné v případech, kdy je změna spíše normou než výjimkou.[23][24]
- Variace v čase mezi liniemi. Metody šetrnosti implicitně předpokládají, že u každé větve stromu prošlo stejné množství evolučního času. Nezohledňují tedy rozdíly v délkách větví ve stromu, které se často používají ke kvantifikaci průchodu evolučního nebo chronologického času. Toto omezení umožňuje technice odvodit, že k jedné změně došlo na velmi krátké větvi, spíše než k několika změnám, které se vyskytnou na velmi dlouhé větvi.[25] Kromě toho je možné, že některé větve stromu mohou zažívat vyšší výběr a rychlost změn než jiné, možná kvůli měnícím se faktorům prostředí. Některá období mohou představovat rychlejší vývoj než jiná, když se tak stane, šetrnost se stane nepřesnou.[26] Tento nedostatek řeší modelové metody (jak maximální věrohodnost, tak Bayesovské metody), které odvozují stochastický proces evoluce, jak se odvíjí podél každé větve stromu.[27]
- Statistické odůvodnění. Bez statistického modelu, který je základem metody, nemají její odhady přesně definované nejistoty.[23][25][28]
- Konvergentní evoluce. Když vezmeme v úvahu stav jednoho znaku, šetrnost automaticky předpokládá, že dva organismy, které sdílejí tuto vlastnost, budou těsněji příbuzné než ty, které ji nemají. Například jen proto, že psi a lidoopi mají srst, ještě neznamená, že mají bližší příbuznost než lidoopi s lidmi.
Maximální pravděpodobnost
Maximální pravděpodobnost (ML) metody rekonstrukce stavu předků považují stavy znaků na vnitřních uzlech stromu za parametry a pokoušejí se najít hodnoty parametrů, které maximalizují pravděpodobnost dat (pozorované stavy znaků) vzhledem k hypotéze (model evoluce a fylogeneze vztahující se k pozorovaným sekvencím nebo taxonům). Jinými slovy, tato metoda předpokládá, že rodové stavy jsou ty, které jsou statisticky nejpravděpodobnější vzhledem k pozorovaným fenotypům. Některé z prvních přístupů ML k rekonstrukci předků byly vyvinuty v kontextu vývoj genetické sekvence;[29][30] podobné modely byly také vyvinuty pro analogický případ vývoje diskrétních znaků.[31]
Použití modelu evoluce odpovídá za skutečnost, že ne všechny události se stanou stejně pravděpodobnými. Například a přechod, což je typ bodové mutace z jednoho purinu na druhý nebo z jednoho pyrimidinu na druhý, je mnohem pravděpodobnější než transverze, což je šance, že se purin změní na pyrimidin nebo naopak. Tyto rozdíly nejsou zachyceny maximální šetrností. Jen proto, že některé události jsou pravděpodobnější než jiné, ještě neznamená, že k nim vždy dojde. Víme, že v průběhu evolučních dějin existovaly doby, kdy existovala velká propast mezi tím, co se nejpravděpodobněji stalo, a tím, co se skutečně stalo. V takovém případě může být maximální šetrnost ve skutečnosti přesnější, protože je ochotnější udělat velké, nepravděpodobné skoky, než je maximální pravděpodobnost. Ukázalo se, že maximální pravděpodobnost je při rekonstrukci stavů znaků docela spolehlivá, ale při provádění přesných odhadů stability proteinů to není tak dobrá práce. Maximální pravděpodobnost vždy nadhodnocuje stabilitu proteinů, což dává smysl, protože předpokládá, že proteiny, které byly vyrobeny a použity, byly nejstabilnější a nejoptimálnější.[13] Přednosti maximální pravděpodobnosti byly předmětem diskuse, přičemž někteří dospěli k závěru, že test maximální pravděpodobnosti představuje dobré médium mezi přesností a rychlostí.[32] Jiné studie si však stěžovaly, že maximální pravděpodobnost vyžaduje příliš mnoho času a výpočetní síly, aby mohla být v některých scénářích užitečná.[33]
Tyto přístupy používají stejný pravděpodobnostní rámec, jaký se používá k odvození fylogenetického stromu.[34] Stručně řečeno, vývoj genetické sekvence je modelován časově reverzibilním kontinuálním časem Markov proces. V nejjednodušším z nich všechny znaky procházejí nezávislými přechody stavu (jako jsou nukleotidové substituce) konstantní rychlostí v průběhu času. Tento základní model je často rozšířen tak, aby umožňoval různé rychlosti na každé větvi stromu. Ve skutečnosti se rychlost mutací může také časem měnit (například v důsledku změn prostředí); to lze modelovat tak, že se umožní, aby se parametry rychlosti vyvíjely ve stromu, na úkor zvýšeného počtu parametrů. Model definuje pravděpodobnosti přechodu ze stavů i na j podél větve délky t (v jednotkách evolučního času). Pravděpodobnost fylogeneze se počítá z vnořeného součtu pravděpodobností přechodu, který odpovídá hierarchické struktuře navrhovaného stromu. V každém uzlu je pravděpodobnost jeho potomků shrnuta do všech možných stavů předků v daném uzlu:
kde počítáme pravděpodobnost podstrom zakořeněné v uzlu X s přímými potomky y a z, označuje stav znaku i-tý uzel, je délka větve (evoluční čas) mezi uzly i a j, a je sada všech možných stavů znaků (například nukleotidů A, C, G a T).[34] Cílem rekonstrukce předků je tedy najít úkol pro všechny X vnitřní uzly, které maximalizují pravděpodobnost pozorovaných dat pro daný strom.
Mezní a společná pravděpodobnost
Spíše než vypočítat celkovou pravděpodobnost alternativních stromů je problémem rekonstrukce předků najít kombinaci stavů znaků v každém uzlu předků s nejvyšší mezní maximální pravděpodobností. Obecně lze říci, že k tomuto problému existují dva přístupy. Nejprve lze každému předkovi přiřadit nejpravděpodobnější stav postavy nezávisle na rekonstrukci všech ostatních předků. Tento přístup se označuje jako okrajová rekonstrukce. Je to podobné jako součet všech kombinací stavů předků ve všech ostatních uzlech stromu (včetně kořenového uzlu), kromě těch, pro které jsou k dispozici data. Mezní rekonstrukce spočívá v nalezení stavu v aktuálním uzlu, který maximalizuje pravděpodobnost integrace nad všemi ostatními stavy ve všech uzlech v poměru k jejich pravděpodobnosti. Za druhé, místo toho se můžeme pokusit najít společnou kombinaci stavů předků v celém stromu, což společně maximalizuje pravděpodobnost celého souboru dat. Tento přístup se tedy označuje jako společná rekonstrukce.[29] Není divu, že společná rekonstrukce je více výpočetně složité než okrajová rekonstrukce. Přesto byly vyvinuty účinné algoritmy pro rekonstrukci kloubů s časovou složitostí, která je obecně lineární s počtem pozorovaných taxonů nebo sekvencí.[7]
Metody rekonstrukce předků založené na ML mají tendenci poskytovat větší přesnost než metody MP v přítomnosti variací rychlostí evoluce mezi znaky (nebo napříč místy v genomu).[35][36] Tyto metody však ještě nejsou schopny přizpůsobit se různým rychlostem evoluce v čase, jinak známé jako heterotachy. Pokud se rychlost evoluce pro konkrétní znak zrychlí na větvi fylogeneze, pak bude množství evoluce, ke kterému došlo na této větvi, podhodnoceno pro danou délku větve a za předpokladu konstantní rychlosti evoluce pro danou postavu. Kromě toho je obtížné odlišit heterotachii od variace mezi znaky v rychlostech evoluce.[37]
Vzhledem k tomu, že ML (na rozdíl od maximální šetrnosti) vyžaduje, aby vyšetřovatel specifikoval model evoluce, může být jeho přesnost ovlivněna použitím hrubě nesprávného modelu (chybná specifikace modelu). Kromě toho ML může poskytnout pouze jedinou rekonstrukci stavů znaků (což se často označuje jako „bodový odhad“) - když je povrch pravděpodobnosti vysoce nekonvexní a obsahuje více vrcholů (lokální optima), pak nemůže jediný bodový odhad poskytují adekvátní zastoupení a Bayesovský přístup může být vhodnější.
Bayesovský závěr
Bayesovský závěr využívá pravděpodobnost pozorovaných údajů k aktualizaci přesvědčení vyšetřovatele, nebo předchozí distribuce, čímž se získá zadní distribuce. V kontextu rekonstrukce předků je cílem odvodit zadní pravděpodobnosti stavů předků v každém vnitřním uzlu daného stromu. Kromě toho lze tyto pravděpodobnosti integrovat do zadních distribucí nad parametry evolučního modelu a prostor všech možných stromů. To lze vyjádřit jako aplikaci Bayesova věta:
kde S představuje rodové státy, D - odpovídá pozorovaným údajům a - představuje jak evoluční model, tak fylogenetický strom. je pravděpodobnost pozorovaných dat, která lze vypočítat pomocí Felsensteinův prořezávací algoritmus jak je uvedeno výše. je předchozí pravděpodobnost stavů předků pro daný model a strom. Konečně, je pravděpodobnost dat pro daný model a strom integrovaných do všech možných stavů předků.
Bayesiánská inference je metoda, o které mnozí tvrdili, že je nejpřesnější.[8] Bayesovské statistické metody obecně umožňují vyšetřovatelům kombinovat již existující informace s novou hypotézou. V případě evoluce kombinuje pravděpodobnost pozorovaných údajů s pravděpodobností, že k událostem došlo v pořadí, v jakém k nim došlo, a zároveň uznává pravděpodobnost chyby a nejistoty. Celkově se jedná o nejpřesnější metodu rekonstrukce genetických sekvencí předků i stability proteinů.[25] Na rozdíl od ostatních dvou metod poskytuje Bayesianova inference distribuci možných stromů, což umožňuje přesnější a snadno interpretovatelné odhady rozptylu možných výsledků.[38]
Výše jsme uvedli dvě formulace, abychom zdůraznili dvě různé aplikace Bayesovy věty, o nichž pojednáváme v následující části.
Empirické a hierarchické Bayes
Jednu z prvních implementací bayesovského přístupu k rekonstrukci sekvence předků vyvinuli Yang a kolegové,[29] kde byly k definování předchozích distribucí použity odhady maximální pravděpodobnosti evolučního modelu a stromu. Jejich přístup je tedy příkladem empirická Bayesova metoda vypočítat zadní pravděpodobnosti stavů předků; tato metoda byla poprvé implementována v softwarovém balíčku PAML.[39] Z hlediska výše uvedené formulace Bayesovských pravidel je empirická Bayesova metoda opravena k empirickým odhadům modelu a stromu získaným z dat, což efektivně klesá ze zadní pravděpodobnosti a předchozích podmínek vzorce. Navíc Yang a kolegové[29] použili empirickou distribuci vzorů místa (tj. přiřazení nukleotidů ke špičkám stromu) při zarovnání pozorovaných nukleotidových sekvencí ve jmenovateli namísto vyčerpávajícího výpočtu přes všechny možné hodnoty S daný . Výpočtově je empirická Bayesova metoda podobná maximální pravděpodobnosti rekonstrukce předků kromě toho, že namísto hledání přiřazení stavů ML na základě jejich příslušných rozdělení pravděpodobnosti v každém vnitřním uzlu jsou přímo hlášeny samotné rozdělení pravděpodobnosti.
Empirické Bayesovy metody pro rekonstrukci předků vyžadují, aby vyšetřovatel předpokládal, že parametry a strom evolučního modelu jsou známy bez chyby. Když velikost nebo složitost dat činí z toho nereálný předpoklad, může být rozumnější přijmout plně hierarchický Bayesiánský přístup a odvodit společné zadní rozdělení po stavech, modelech a stromech předků.[40] Nejprve navrhli Huelsenbeck a Bollback[40] hierarchickou Bayesovu metodu rekonstrukce předků pomocí Markovský řetězec Monte Carlo (MCMC) metody vzorkování rodových sekvencí z této společné zadní distribuce. Podobný přístup byl také použit k rekonstrukci vývoje symbiózy s řasami u druhů hub (lichenizace ).[41] Například Algoritmus Metropolis-Hastings pro MCMC zkoumá společné zadní rozdělení přijetím nebo odmítnutím přiřazení parametrů na základě poměru zadních pravděpodobností.
Zjednodušeně řečeno, empirický Bayesův přístup vypočítává pravděpodobnosti různých stavů předků pro konkrétní strom a model evoluce. Vyjádřením rekonstrukce stavů předků jako množiny pravděpodobností lze přímo kvantifikovat nejistotu pro přiřazení jakéhokoli konkrétního stavu k předkovi. Na druhou stranu hierarchický Bayesův přístup zprůměruje tyto pravděpodobnosti u všech možných stromů a modelů evoluce v poměru k pravděpodobnosti těchto stromů a modelů vzhledem k pozorovaným údajům.
Zda hierarchická Bayesova metoda poskytuje v praxi podstatnou výhodu, však zůstává kontroverzní.[42] Navíc se tento plně bayesovský přístup omezuje na analýzu relativně malého počtu sekvencí nebo taxonů, protože prostor všechny možné stromy se rychle stává příliš obrovským, což je výpočetně nemožné vzorky řetězu sblížit se v rozumném čase.
Kalibrace
Rekonstrukci předků mohou pozorované státy informovat v historických vzorcích známého věku, jako jsou fosilie nebo archivní vzorky. Vzhledem k tomu, že přesnost rekonstrukce předků obecně klesá s rostoucím časem, použití těchto vzorků poskytuje data, která jsou blíže rekonstruovaným předkům, a s největší pravděpodobností zlepší analýzu, zvláště když se rychlost změn charakteru v čase mění. Tento koncept byl ověřen experimentální evoluční studií, ve které replikovaly populace bakteriofág T7 byly propagovány za účelem vytvoření umělé fylogeneze.[43] Při revizi těchto experimentálních dat, Oakley a Cunningham[44] zjistil, že metody maximální šetrnosti nebyly schopny přesně rekonstruovat známý rodový stav spojitého znaku (velikost plaku ); tyto výsledky byly ověřeny počítačovou simulací. Toto selhání rekonstrukce předků bylo přičítáno směrovému zkreslení ve vývoji velikosti plaku (od velkého k malému průměru plaku), které vyžadovalo zahrnutí „zkamenělých“ vzorků k řešení.
Studie obou savčích masožravců[45] a ryby[46] prokázali, že bez zahrnutí fosilních dat jsou rekonstruované odhady velikostí těla předků nerealisticky velké. Navíc se ukázal Graham Slater a jeho kolegové[47] použitím caniform carnivorans že začlenění fosilních dat do dřívějších distribucí zlepšilo jak Bayesiánskou inferenci stavů předků, tak výběr evolučního modelu ve srovnání s analýzami využívajícími pouze současná data.
Modely
Bylo vyvinuto mnoho modelů pro odhad stavu předků diskrétních a spojitých znaků od existujících potomků.[48] Takové modely předpokládají, že vývoj zvláštnosti v čase lze modelovat jako stochastický proces. U vlastností s diskrétní hodnotou (například „typ opylovače“) se tento proces obvykle považuje za a Markovův řetězec; pro vlastnosti s kontinuální hodnotou (například „velikost mozku "), proces je často považován za Brownův pohyb nebo Ornstein-Uhlenbeck proces. Použitím tohoto modelu jako základu pro statistickou inferenci lze nyní použít maximální pravděpodobnost metody nebo Bayesovský závěr odhadnout rodové stavy.
Diskrétní modely
Předpokládejme, že dotyčná vlastnost může spadat do jedné z státy, označené . Typickým prostředkem modelování vývoje tohoto znaku je Markovův řetězec v kontinuálním čase, který lze stručně popsat následovně. Každý stát k němu přidružil rychlosti přechodu do všech ostatních států. Znak je modelován jako krokování mezi státy; když dosáhne daného stavu, spustí exponenciální „hodiny“ pro každý z ostatních stavů, ke kterým může vstoupit. Poté „závodí“ hodiny proti sobě a udělá krok ke stavu, jehož hodiny zvoní jako první. V takovém modelu jsou parametry míra přechodu , které lze odhadnout například pomocí metod maximální věrohodnosti, kdy se maximalizuje nad množinou všech možných konfigurací stavů rodových uzlů.

Za účelem obnovení stavu daného rodového uzlu ve fylogenezi (zavolejte tento uzel ) podle maximální pravděpodobnosti, postup je: najít odhad maximální pravděpodobnosti z ; pak vypočítat pravděpodobnost každého možného stavu pro klimatizace zapnuta ; nakonec vyberte stav předků, který to maximalizuje.[23] Jeden může také použít tento substituční model jako základ pro Bayesiánský inferenční postup, který by zohledňoval zadní víru ve stav rodového uzlu vzhledem k určitému uživateli zvolenému předchozímu.
Protože takových modelů může být až tolik parametrů může být problém s nadměrným vybavením. Některé běžné možnosti, které zmenšují prostor parametrů, jsou:
- Markov -state 1 parametr model: tento model je reverzní v čase -státní protějšek Jukes-Cantor Modelka. V tomto modelu mají všechny přechody stejnou rychlost , bez ohledu na jejich počáteční a konečný stav. Některé přechody mohou být zakázány prohlášením, že jejich sazby jsou jednoduše 0; toto může být případ, například pokud nelze dosáhnout určitých stavů z jiných států v jediném přechodu. Příklad čtyřstavového 1parametrického modelu řetězce Markov. Všimněte si, že v tomto diagramu byly přechody mezi stavy A a D zakázány; je obvyklé šipku nekreslit, než ji kreslit rychlostí 0.
- Asymetrický Markov -state 2 parametr model: v tomto modelu je stavový prostor uspořádán (takže například stav 1 je menší než stav 2, který je menší než stav 3) a přechody mohou nastat pouze mezi sousedními stavy. Tento model obsahuje dva parametry a : jeden pro rychlost zvyšování stavu (např. 0 až 1, 1 až 2 atd.) a jeden pro míru snižování stavu (např. z 2 na 1, 1 na 0 atd.). Grafické znázornění asymetrického pětistavového 2parametrického modelu Markovova řetězce.
Příklad: Speciační a extinkční model binárního stavu
Model speciace a vyhynutí binárního stavu[49] (BiSSE) je model diskrétního prostoru, který přímo nenadvádí na rámec výše zmíněných. Umožňuje odhad stavů binárních znaků předků společně s míry diverzifikace spojené s různými stavy znaků; může být také přímo rozšířen na obecnější model s více diskrétními stavy. V nejzákladnější formě tento model zahrnuje šest parametrů: dvě míry speciace (každá pro linie ve stavech 0 a 1); podobně dvě míry vyhynutí; a dvě rychlosti změny charakteru. Tento model umožňuje testování hypotéz o rychlostech speciace / vyhynutí / změně charakteru za cenu zvýšení počtu parametrů.
Modely spojitého stavu
V případě, že vlastnost místo toho přijímá diskrétní hodnoty, je třeba se místo toho obrátit na model, kde se vlastnost vyvíjí jako nějaký kontinuální proces. Odvození rodových stavů maximální pravděpodobností (nebo Bayesovskými metodami) by probíhalo jak je uvedeno výše, ale s pravděpodobností přechodů ve stavu mezi sousedními uzly danými nějakým jiným spojitým rozdělením pravděpodobnosti.

- Brownův pohyb: in this case, if nodes a are adjacent in the phylogeny (say je předchůdcem ) and separated by a branch of length , the likelihood of a transition from being in state na being in state is given by a Gaussian density with mean a rozptyl In this case, there is only one parameter (), and the model assumes that the trait evolves freely without a bias toward increase or decrease, and that the rate of change is constant throughout the branches of the phylogenetic tree.[50]
- Ornstein-Uhlenbeck process: in brief, an Ornstein-Uhlenbeck process is a continuous stochastic process that behaves like a Brownian motion, but attracted toward some central value, where the strength of the attraction increases with the distance from that value.[51][52][53] This is useful for modelling scenarios where the trait is subject to stabilizující selection around a certain value (say ). Under this model, the above-described transition of being in state na being in state would have a likelihood defined by the transition density of an Ornstein-Uhlenbeck process with two parameters: , which describes the variance of the driving Brownian motion, and , which describes the strength of its attraction to . Tak jako má sklony k , the process is less and less constrained by its attraction to and the process becomes a Brownian motion. Because of this, the models may be nested, and log-likelihood ratio tests discerning which of the two models is appropriate may be carried out.[50]
- Stable models of continuous character evolution:[54] though Brownian motion is appealing and tractable as a model of continuous evolution, it does not permit non-neutrality in its basic form, nor does it provide for any variation in the rate of evolution over time. Instead, one may use a stabilní proces, one whose values at fixed times are distributed as stabilní distribuce, to model the evolution of traits. Stable processes, roughly speaking, behave as Brownian motions that also incorporate discontinuous jumps. This allows to appropriately model scenarios in which short bursts of fast trait evolution are expected. In this setting, maximum likelihood methods are poorly suited due to a rugged likelihood surface and because the likelihood may be made arbitrarily large, so Bayesian methods are more appropriate.[54]
Aplikace
Vývoj postavy
Rekonstrukce předků is widely used to infer the ecological, phenotypic, or biogeographic traits associated with ancestral nodes in a phylogenetic tree. All methods of ancestral trait reconstructions have pitfalls, as they use mathematical models to predict how traits have changed with large amounts of missing data. This missing data includes the states of extinct species, the relative rates of evolutionary changes, knowledge of initial character states, and the accuracy of phylogenetic trees. In all cases where ancestral trait reconstruction is used, findings should be justified with an examination of the biological data that supports model based conclusions. Griffith O.W. et al.[55]
Ancestral reconstruction allows for the study of evolutionary pathways, adaptivní výběr, developmental gene expression,[56][57] and functional divergence of the evolutionary past. For a review of biological and computational techniques of ancestral reconstruction see Chang et al..[58] For criticism of ancestral reconstruction computation methods see Williams P.D. et al..[13]
Behavior and life history evolution
In horned ještěrky (rod Phrynosoma ), viviparita (live birth) has evolved multiple times, based on ancestral reconstruction methods.[59]
Diet reconstruction in Galapagos finches
Both phylogenetic and character data are available for the radiation of pěnkavy obývající Galapágy. These data allow testing of hypotheses concerning the timing and ordering of character state changes through time via ancestral state reconstruction. During the dry season, the diets of the 13 species of Galapágy pěnkavy may be assorted into three broad diet categories, first those that consume grain-like foods are considered "granivores ", those that ingest arthropods are termed "hmyzožravci " and those that consume vegetation are classified as "folivores ".[23] Dietary ancestral state reconstruction using maximum parsimony recover 2 major shifts from an insectivorous state: one to granivory, and one to folivory. Maximum-likelihood ancestral state reconstruction recovers broadly similar results, with one significant difference: the common ancestor of the tree finch (Camarhynchus ) and ground finch (Geospiza ) clades are most likely granivorous rather than insectivorous (as judged by parsimony). In this case, this difference between ancestral states returned by maximum parsimony and maximum likelihood likely occurs as a result of the fact that ML estimates consider branch lengths of the phylogenetic tree.[23]
Morphological and physiological character evolution
Phrynosomatid lizards show remarkable morphological diversity, including in the relative muscle fiber type composition in their hindlimb svaly. Ancestor reconstruction based on squared-change parsimony (equivalent to maximum likelihood under Brownův pohyb character evolution[60]) indicates that rohaté ještěrky, one of the three main subclades of the lineage, have undergone a major evolutionary increase in the proportion of fast-oxidative glycolytic fibers in their iliofibularis muscles.[61]
Mammalian body mass
In an analysis of the body mass of 1,679 placentární savec species comparing stable models of continuous character evolution to Brownův pohyb models, Elliot and Mooers[54] showed that the evolutionary process describing mammalian body mass evolution is best characterized by a stable model of continuous character evolution, which accommodates rare changes of large magnitude. Under a stable model, ancestral mammals retained a low body mass through early diversification, with large increases in body mass coincident with the origin of several Orders of large body massed species (e.g. ungulates). By contrast, simulation under a Brownian motion model recovered a less realistic, order of magnitude larger body mass among ancestral mammals, requiring significant reductions in body size prior to the evolution of Orders exhibiting small body size (e.g. Rodentia ). Thus stable models recover a more realistic picture of mammalian body mass evolution by permitting large transformations to occur on a small subset of branches.[54]
Fylogenetické srovnávací metody (inferences drawn through comparison of related taxa) are often used to identify biological characteristics that do not evolve independently, which can reveal an underlying dependence. For example, the evolution of the shape of a finch's beak may be associated with its foraging behaviour. However, it is not advisable to search for these associations by the direct comparison of measurements or genetic sequences because these observations are not independent because of their descent from common ancestors. For discrete characters, this problem was first addressed in the framework of maximum parsimony by evaluating whether two characters tended to undergo a change on the same branches of the tree.[62][63] Felsenstein identified this problem for continuous character evolution and proposed a solution similar to ancestral reconstruction, in which the phylogenetic structure of the data was accommodated statistically by directing the analysis through computation of "independent contrasts" between nodes of the tree related by non-overlapping branches.[28]
Molekulární evoluce
On a molecular level, aminokyselinové zbytky at different locations of a protein may evolve non-independently because they have a direct physicochemical interaction, or indirectly by their interactions with a common substrate or through long-range interactions in the protein structure. Conversely, the folded structure of a protein could potentially be inferred from the distribution of residue interactions.[64] One of the earliest applications of ancestral reconstruction, to predict the three-dimensional structure of a protein through residue contacts, was published by Shindyalov and colleagues.[65] Phylogenies relating 67 different protein families were generated by a distance-based clustering method (metoda neváženého páru s aritmetickým průměrem, UPGMA), and ancestral sequences were reconstructed by parsimony. The authors reported a weak but significant tendency for co-evolving pairs of residues to be co-located in the known three-dimensional structure of the proteins.
The reconstruction of ancient proteins and DNA sequences has only recently become a significant scientific endeavour. The developments of extensive genomic sequence databases in conjunction with advances in biotechnology and phylogenetic inference methods have made ancestral reconstruction cheap, fast, and scientifically practical. This concept has been applied to identify co-evolving residues in protein sequences using more advanced methods for the reconstruction of phylogenies and ancestral sequences. For example, ancestral reconstruction has been used to identify co-evolving residues in proteins encoded by RNA virus genomes, particularly in HIV.[66][67][68]
Rodový protein a DNA reconstruction allows for the recreation of protein and DNA evolution in the laboratory so that it can be studied directly.[58] With respect to proteins, this allows for the investigation of the evolution of present-day molecular structure and function. Additionally, ancestral protein reconstruction can lead to the discoveries of new biochemical functions that have been lost in modern proteins.[69][70] It also allows insights into the biology and ecology of extinct organisms.[71] Although the majority of ancestral reconstructions have dealt with proteins, it has also been used to test evolutionary mechanisms at the level of bacterial genomes[72] and primate gene sequences.[73]
Návrh vakcíny
RNA viruses such as the virus lidské imunodeficience (HIV) evolve at an extremely rapid rate, orders of magnitude faster than mammals or birds. For these organisms, ancestral reconstruction can be applied on a much shorter time scale; for example, in order to reconstruct the global or regional progenitor of an epidemický that has spanned decades rather than millions of years. A team around Brian Gaschen proposed[74] that such reconstructed strains be used as targets for vakcína design efforts, as opposed to sequences isolated from patients in the present day. Because HIV is extremely diverse, a vaccine designed to work on one patient's viral population might not work for a different patient, because the evolutionary distance between these two viruses may be large. However, their most recent common ancestor is closer to each of the two viruses than they are to each other. Thus, a vaccine designed for a common ancestor could have a better chance of being effective for a larger proportion of circulating strains. Another team took this idea further by developing a center-of-tree reconstruction method to produce a sequence whose total evolutionary distance to contemporary strains is as small as possible.[75] Strictly speaking, this method was not rodový reconstruction, as the center-of-tree (COT) sequence does not necessarily represent a sequence that has ever existed in the evolutionary history of the virus. However, Rolland and colleagues did find that, in the case of HIV, the COT virus was functional when synthesized. Similar experiments with synthetic ancestral sequences obtained by maximum likelihood reconstruction have likewise shown that these ancestors are both functional and immunogenic,[76][77] lending some credibility to these methods. Furthermore, ancestral reconstruction can potentially be used to infer the genetic sequence of the transmitted HIV variants that have gone on to establish the next infection, with the objective of identifying distinguishing characteristics of these variants (as a non-random selection of the transmitted population of viruses) that may be targeted for vaccine design.[78]
Genome rearrangements
Rather than inferring the ancestral DNA sequence, one may be interested in the larger-scale molecular structure and content of an ancestral genome. This problem is often approached in a combinatorial framework, by modelling genomes as obměny of genes or homologous regions. Various operations are allowed on these permutations, such as an inverze (a segment of the permutation is reversed in-place), vymazání (a segment is removed), transpozice (a segment is removed from one part of the permutation and spliced in somewhere else), or gain of genetic content through rekombinace, zdvojení nebo horizontální přenos genů. The "genome rearrangement problem", first posed by Watterson and colleagues,[17] asks: given two genomes (permutations) and a set of allowable operations, what is the shortest sequence of operations that will transform one genome into the other? A generalization of this problem applicable to ancestral reconstruction is the "multiple genome rearrangement problem":[79] given a set of genomes and a set of allowable operations, find (i) a binary tree with the given genomes as its leaves, and (ii) an assignment of genomes to the internal nodes of the tree, such that the total number of operations across the whole tree is minimized. This approach is similar to parsimony, except that the tree is inferred along with the ancestral sequences. Unfortunately, even the single genome rearrangement problem is NP-tvrdé,[80] although it has received much attention in mathematics and computer science (for a review, see Fertin and colleagues[81]).
The reconstruction of ancestral genomes is also called karyotyp reconstruction. Chromosome painting is currently the main experimental technique.[82][83] Recently, researchers have developed computational methods to reconstruct the ancestral karyotype by taking advantage of komparativní genomika.[84][85] Furthermore, comparative genomics and ancestral genome reconstruction has been applied to identify ancient horizontal gene transfer events at the last common ancestor of a lineage (e.g. Candidatus Accumulibacter phosphatis[86]) to identify the evolutionary basis for trait acquisition.
Spatial applications
Migrace
Ancestral reconstruction is not limited to biological traits. Spatial location is also a trait, and ancestral reconstruction methods can infer the locations of ancestors of the individuals under consideration. Such techniques were used by Lemey and colleagues[16] to geographically trace the ancestors of 192 Avian influenza A-H5N1 strains sampled from twenty localities in Europe and Asia, and for 101 virus vztekliny sequences sampled across twelve African countries.
Treating locations as discrete states (countries, cities, etc.) allows for the application of the discrete-state models described above. However, unlike in a model where the state space for the trait is small, there may be many locations, and transitions between certain pairs of states may rarely or never occur; for example, migration between distant locales may never happen directly if air travel between the two places does not exist, so such migrations must pass through intermediate locales first. This means that there could be many parameters in the model which are zero or close to zero. To this end, Lemey and colleagues used a Bayesian procedure to not only estimate the parameters and ancestral states, but also to select which migration parameters are not zero; their work suggests that this procedure does lead to more efficient use of the data. They also explore the use of prior distributions that incorporate geographical structure or hypotheses about migration dynamics, finding that those they considered had little effect on the findings.
Using this analysis, the team around Lemey found that the most likely hub of diffusion of A-H5N1 is Guangdong, s Hongkong also receiving posterior support. Further, their results support the hypothesis of long-standing presence of African rabies in západní Afrika.
Species ranges
Inferring historical biogeografické patterns often requires reconstructing ancestral ranges of species on phylogenetic trees.[87] For instance, a well-resolved phylogeny of plant species in the genus Cyrtandra[87] was used together with information of their geographic ranges to compare four methods of ancestral range reconstruction. The team compared Fitch parsimony,[20] (FP; parsimony) stochastic mapping[88] (SM; maximum likelihood), dispersal-vicariance analýza[89] (DIVA; parsimony), and dispersal-extinction-cladogenesis[15][90] (DEC; maximum-likelihood). Results indicated that both parsimony methods performed poorly, which was likely due to the fact that parsimony methods do not consider branch lengths. Both maximum-likelihood methods performed better; however, DEC analyses that additionally allow incorporation of geological priors gave more realistic inferences about range evolution in Cyrtandra relative to other methods.[87]
Another maximum likelihood method recovers the phylogeographic history of a gene[91] by reconstructing the ancestral locations of the sampled taxa. This method assumes a spatially explicit random walk model of migration to reconstruct ancestral locations given the geographic coordinates of the individuals represented by the tips of the phylogenetic tree. When applied to a phylogenetic tree of chorus frogs Pseudacris feriarum, this method recovered recent northward expansion, higher per-generation dispersal distance in the recently colonized region, a non-central ancestral location, and directional migration.[91]

The first consideration of the multiple genome rearrangement problem, long before its formalization in terms of permutations, was presented by Sturtevant and Dobzhansky in 1936.[92] They examined genomes of several strains of ovocný let from different geographic locations, and observed that one configuration, which they called "standard", was the most common throughout all the studied areas. Remarkably, they also noticed that four different strains could be obtained from the standard sequence by a single inversion, and two others could be related by a second inversion. This allowed them to hypothesize a phylogeny for the sequences, and to infer that the standard sequence was probably also the ancestral one.
Linguistic Evolution
Reconstructions of the words and phenomes of ancient proto-jazyky jako Protoindoevropský have been performed based on the observed analogues in present-day languages. Typically, these analyses are carried out manually using the "comparative method".[93] First, words from different languages with a common etymology (příbuzní ) are identified in the contemporary languages under study, analogous to the identification of ortologický biological sequences. Second, correspondences between individual sounds in the cognates are identified, a step similar to biological zarovnání sekvence, although performed manually. Finally, likely ancestral sounds are hypothesised by manual inspection and various heuristics (such as the fact that most languages have both nasal and non-nasal vowels ).[93]
Software
There are many software packages available which can perform ancestral state reconstruction. Generally, these software packages have been developed and maintained through the efforts of scientists in related fields and released under licence na bezplatný software. The following table is not meant to be a comprehensive itemization of all available packages, but provides a representative sample of the extensive variety of packages that implement methods of ancestral reconstruction with different strengths and features.
název | Metody | Plošina | Inputs | ! Typy znaků | Continuous (C) or Discrete Characters (D) | Software License |
---|---|---|---|---|---|---|
PAML | Maximální pravděpodobnost | Unix, Mac, Win | PHYLIP, NEXUS, FASTA | Nucleotide, Protein | D | GNU General Public License, verze 3 |
BESTIE | Bayesian | Unix, Mac, Win | NEXUS, BEAST XML | Nucleotide, Protein, Geographic | C, D | GNU Lesser General Public License |
phytools | Maximální pravděpodobnost | Unix, Mac, Win | newick, nexus | Qualitative and quantitative traits | C, D | GNU General Public License |
OPICE | Maximální pravděpodobnost | Unix, Mac, Win | NEXUS, FASTA, CLUSTAL | Nucleotide, Protein | C, D | GNU General Public License |
Diversitree | Maximální pravděpodobnost | Unix, Mac, Win | NEXUS | Qualitative and quantitative traits, Geographic | C, D | GNU General Public License, verze 2 |
HyPhy | Maximální pravděpodobnost | Unix, Mac, Win | MEGA, NEXUS, FASTA, PHYLIP | Nucleotide, Protein (customizable) | D | GNU Free Documentation License 1.3 |
BayesTraits | Bayesian | Unix, Mac, Win | TSV or space delimited table. Rows are species, columns are traits. | Qualitative and quantitative traits | C, D | Licence Creative Commons Attribution |
Lagrange | Maximální pravděpodobnost | Linux, Mac, Win | TSV/CSV of species regions. Rows are species and columns are geographic regions | Zeměpisný | - | GNU General Public License, verze 2 |
Mesquite | Parsimony, Maximum Likelihood | Unix, Mac, Win | Fasta, NBRF, Genbank, PHYLIP, CLUSTAL, TSV | Nucleotide, Protein, Zeměpisný | C, D | Licence Creative Commons Attribution 3.0 |
Phylomapper | Maximum Likelihood, Bayesian (as of version 2) | Unix, Mac, Win | NEXUS | Geographic, Ecological niche | C, D | - |
Předci | Maximální pravděpodobnost | Web | Fasta | Nucleotide (indels) | D | - |
Phyrex | Maximální šetrnost | Linux | Fasta | Genový výraz | C, D | Proprietární |
SIMMAP | Stochastic Mapping | Mac | XML-like format | Nucleotide, qualitative traits | D | Proprietární |
MrBayes | Bayesian | Unix, Mac, Win | NEXUS | Nucleotide, Protein | D | GNU General Public License |
PARANA | Maximální šetrnost | Unix, Mac, Win | Newick | Biologické sítě | D | Licence Apache |
PHAST (PREQUEL) | Maximální pravděpodobnost | Unix, Mac, Win | Multiple Alignment | Nukleotid | D | Licence BSD |
RAŠPLE | Maximum Likelihood, Bayesian | Unix, Mac, Win | Newick | Zeměpisný | D | - |
VIP | Maximální šetrnost | Linux, Win | Newick | Zeměpisný | D (grid) | GPL Creative Commons |
FastML | Maximální pravděpodobnost | Web, Unix | Fasta | Nucleotide, Protein | D | autorská práva |
MLGO | Maximální pravděpodobnost | Web | Zvyk | Gene order permutation | D | GNU |
BADGER | Bayesian | Unix, Mac, Win | Zvyk | Gene order permutation | D | GNU GPL verze 2 |
POČET | Maximum Parsimony, maximum likelihood | Unix, Mac, Win | Tab-delimited text file of rows for taxa and count data in columns. | Count (numerical) data (e.g., homolog family size) | D | BSD |
MEGA | Maximum parsimony, maximum likelihood. | Mac, Win | MEGA | Nucleotide, Protein | D | Proprietární |
ANGES | Local Parsimony | Unix | Zvyk | Genome maps | D | GNU General Public License, version 3 |
ROZLUŠTIT | Maximální pravděpodobnost | Unix, Mac, Win | FASTA, GenBank | Nukleotid | D | GNU General Public License, version 3 |
EREM | Maximum likelihood. | Win, Unix, Matlab module | Custom text format for model parameters, tree, observed character values. | Binární | D | None specified, although site indicates software is freely available. |
Package descriptions
Molekulární evoluce
The majority of these software packages are designed for analyzing genetic sequence data. For example, PAML[94] is a collection of programs for the phylogenetic analysis of DNA and protein sequence alignments by maximum likelihood. Ancestral reconstruction can be performed using the codeml program. In addition, LAZARUS is a collection of Krajta scripts that wrap the ancestral reconstruction functions of PAML for batch processing and greater ease-of-use.[95] Software packages such as MEGA, HyPhy, and Mesquite also perform phylogenetic analysis of sequence data, but are designed to be more modular and customizable. HyPhy[96] implements a joint maximum likelihood method of ancestral sequence reconstruction[7] that can be readily adapted to reconstructing a more generalized range of discrete ancestral character states such as geographic locations by specifying a customized model in its batch language. Mesquite[97] provides ancestral state reconstruction methods for both discrete and continuous characters using both maximum parsimony and maximum likelihood methods. It also provides several visualization tools for interpreting the results of ancestral reconstruction. MEGA[98] is a modular system, too, but places greater emphasis on ease-of-use than customization of analyses. As of version 5, MEGA allows the user to reconstruct ancestral states using maximum parsimony, maximum likelihood, and empirical Bayes methods.[98]
The Bayesian analysis of genetic sequences may confer greater robustness to model misspecification. MrBayes[99] allows inference of ancestral states at ancestral nodes using the full hierarchical Bayesian approach. The PREQUEL program distributed in the PHAST package[100] performs comparative evolutionary genomics using ancestral sequence reconstruction. SIMMAP[101] stochastically maps mutations on phylogenies. BayesTraits[31] analyses discrete or continuous characters in a Bayesian framework to evaluate models of evolution, reconstruct ancestral states, and detect correlated evolution between pairs of traits.
Other character types
Other software packages are more oriented towards the analysis of qualitative and quantitative traits (fenotypy ). Například opice balík[102] in the statistical computing environment R also provides methods for ancestral state reconstruction for both discrete and continuous characters through the 'eso' function, including maximum likelihood. Phyrex implements a maximum parsimony-based algorithm to reconstruct ancestral gene expression profiles, in addition to a maximum likelihood method for reconstructing ancestral genetic sequences (by wrapping around the baseml function in PAML).[103]
Several software packages also reconstruct fylogeografie. BESTIE (Bayesian Evolutionary Analysis by Sampling Trees)[104] provides tools for reconstructing ancestral geographic locations from observed sequences annotated with location data using Bayesian MCMC metody odběru vzorků. Diversitree[105] is an R package providing methods for ancestral state reconstruction under Mk2 (a continuous time Markov model of binary character evolution).[106] and BiSSE (Binary State Speciation and Extinction) models. Lagrange performs analyses on reconstruction of geographic range evolution on phylogenetic trees.[15] Phylomapper[91] is a statistical framework for estimating historical patterns of gene flow and ancestral geographic locations. RAŠPLE[107] infers ancestral states using statistical dispersal-vicariance analysis, Lagrange, Bayes-Lagrange, BayArea and BBM methods. VIP[108] infers historical biogeography by examining disjunct geographic distributions.
Genome rearrangements provide valuable information in komparativní genomika between species. ANGES[109] compares extant related genomes through ancestral reconstruction of genetic markers. BADGER[110] uses a Bayesian approach to examining the history of gene rearrangement. Počet[111] reconstructs the evolution of the size of gene families. EREM[112] analyses the gain and loss of genetic features encoded by binary characters. PARANA[113] performs parsimony based inference of ancestral biological networks that represent gene loss and duplication.
Webové aplikace
Finally, there are several web-server based applications that allow investigators to use maximum likelihood methods for ancestral reconstruction of different character types without having to install any software. For example, Ancestors[114] is web-server for ancestral genome reconstruction by the identification and arrangement of syntenický regionech. FastML[115] is a web-server for probabilistic reconstruction of ancestral sequences by maximum likelihood that uses a gap character model for reconstructing indel variace. MLGO[116] is a web-server for maximum likelihood gene order analysis.
Future directions
The development and application of computational algorithms for ancestral reconstruction continues to be an active area of research across disciplines. For example, the reconstruction of sequence insertions and deletions (indels) has lagged behind the more straightforward application of substitution models. Bouchard-Côté and Jordan recently described a new model (the Poisson Indel Process)[117] which represents an important advance on the archetypal Thorne-Kishino-Felsenstein model of indel evolution.[118] In addition, the field is being driven forward by rapid advances in the area of sekvenování nové generace technology, where sequences are generated from millions of nucleic acid templates by extensive parallelization of sequencing reactions in a custom apparatus. These advances have made it possible to generate a "deep" snapshot of the genetic composition of a rapidly evolving population, such as RNA viruses[119] or tumour cells,[120] in a relatively short amount of time. At the same time, the massive amount of data and platform-specific sequencing error profiles has created new bioinformatic challenges for processing these data for ancestral sequence reconstruction.
Viz také
Reference
Tento článek byl upraven z následujícího zdroje pod a CC BY 4.0 licence (2015 ) (zprávy recenzenta ): "Ancestral Reconstruction", PLOS výpočetní biologie, 12 (7): e1004763, 12 July 2016, doi:10.1371/JOURNAL.PCBI.1004763, ISSN 1553-734X, PMC 4942178, PMID 27404731, Wikidata Q28596371
- ^ A b Omland, Kevin E. (1999). "The Assumptions and Challenges of Ancestral State Reconstructions". Systematická biologie. 48 (3): 604–611. doi:10.1080/106351599260175. ISSN 1063-5157.
- ^ Cai, Wei; Pei, Jimin; Grishin, Nick V (2004). "Reconstruction of ancestral protein sequences and its applications". BMC Evoluční biologie. 4 (1): 33. doi:10.1186/1471-2148-4-33. ISSN 1471-2148. PMC 522809. PMID 15377393.
- ^ Platnick, Norman I .; Cameron, H. Don (1977). "Cladistic Methods in Textual, Linguistic, and Phylogenetic Analysis". Systematická zoologie. 26 (4): 380. doi:10.2307/2412794. ISSN 0039-7989. JSTOR 2412794.
- ^ Bentley, R. Alexander; Tehrani, Jamshid J. (2013). "The Phylogeny of Little Red Riding Hood". PLOS ONE. 8 (11): e78871. Bibcode:2013PLoSO...878871T. doi:10.1371/journal.pone.0078871. ISSN 1932-6203. PMC 3827309. PMID 24236061.
- ^ Michalak, Pawel; Walker, Robert S .; Hill, Kim R.; Flinn, Mark V.; Ellsworth, Ryan M. (2011). "Evolutionary History of Hunter-Gatherer Marriage Practices". PLOS ONE. 6 (4): e19066. Bibcode:2011PLoSO...619066W. doi:10.1371/journal.pone.0019066. ISSN 1932-6203. PMC 3083418. PMID 21556360.
- ^ Brooks, Daniel R (1999). "Phylogenies and the Comparative Method in Animal Behavior, Edited by Emı̀ia P. Martins, Oxford University Press, 1996. X+415 pp". Procesy chování. 47 (2): 135–136. doi:10.1016/S0376-6357(99)00038-8. ISBN 978-0-19-509210-3. ISSN 0376-6357. PMID 24896936. S2CID 9872907.
- ^ A b C Pupko, T.; Pe, I.; Shamir, R.; Graur, D. (2000). "A Fast Algorithm for Joint Reconstruction of Ancestral Amino Acid Sequences". Molekulární biologie a evoluce. 17 (6): 890–896. doi:10.1093/oxfordjournals.molbev.a026369. ISSN 0737-4038. PMID 10833195.
- ^ A b C Pagel, Mark; Meade, Andrew; Barker, Daniel (2004). „Bayesovský odhad stavů předků na fylogenezích“. Systematická biologie. 53 (5): 673–684. doi:10.1080/10635150490522232. ISSN 1063-5157. PMID 15545248.
- ^ Sanger, F.; Thompson, E. O. P.; Kitai, Ruth (1955). "The amide groups of insulin". Biochemical Journal. 59 (3): 509–518. doi:10.1042/bj0590509. ISSN 0264-6021. PMC 1216278. PMID 14363129.
- ^ Pauling, Linus; Zuckerkandl, Emile; Henriksen, Thormod; Lövstad, Rolf (1963). "Chemical Paleogenetics. Molecular "Restoration Studies" of Extinct Forms of Life". Acta Chemica Scandinavica. 17 supl.: 9–16. doi:10.3891/acta.chem.scand.17s-0009. ISSN 0904-213X.
- ^ A b Dobzhansky, Theodosius; Sturtevant, Alfred (1938). "Inversions in the chromosomes of Drosophila pseudoobscura". Genetika. 23 (1): 28–64. PMC 1209001. PMID 17246876.
- ^ Harms, Michael J; Thornton, Joseph W (2010). "Analyzing protein structure and function using ancestral gene reconstruction". Aktuální názor na strukturní biologii. 20 (3): 360–366. doi:10.1016/j.sbi.2010.03.005. ISSN 0959-440X. PMC 2916957. PMID 20413295.
- ^ A b C d Williams, Paul D.; Pollock, David D .; Blackburne, Benjamin P.; Goldstein, Richard A. (2006). "Assessing the Accuracy of Ancestral Protein Reconstruction Methods". PLOS výpočetní biologie. 2 (6): e69. Bibcode:2006PLSCB ... 2 ... 69 W.. doi:10.1371 / journal.pcbi.0020069. ISSN 1553-734X. PMC 1480538. PMID 16789817.
- ^ Ronquist, F (2004). "Bayesian inference of character evolution". Trendy v ekologii a evoluci. 19 (9): 475–481. doi:10.1016/j.tree.2004.07.002. ISSN 0169-5347. PMID 16701310.
- ^ A b C Ree, R. H.; Smith, S. A. (2008). "Maximum Likelihood Inference of Geographic Range Evolution by Dispersal, Local Extinction, and Cladogenesis". Systematická biologie. 57 (1): 4–14. doi:10.1080/10635150701883881. ISSN 1063-5157. PMID 18253896.
- ^ A b Fraser, Christophe; Lemey, Philippe; Rambaut, Andrew; Drummond, Alexei J .; Suchard, Marc A. (2009). "Bayesian Phylogeography Finds Its Roots". PLOS výpočetní biologie. 5 (9): e1000520. Bibcode:2009PLSCB...5E0520L. doi:10.1371/journal.pcbi.1000520. ISSN 1553-7358. PMC 2740835. PMID 19779555.
- ^ A b Watterson, G.A.; Ewens, W. J.; Hall, T.E.; Morgan, A. (1982). "The chromosome inversion problem". Journal of Theoretical Biology. 99 (1): 1–7. doi:10.1016/0022-5193(82)90384-8. ISSN 0022-5193.
- ^ Tuffley, Chris; Steel, Mike (1997). "Links between maximum likelihood and maximum parsimony under a simple model of site substitution". Bulletin of Mathematical Biology. 59 (3): 581–607. doi:10.1007/BF02459467. ISSN 0092-8240. PMID 9172826. S2CID 189885872.
- ^ Swofford, David L.; Maddison, Wayne P. (1987). "Reconstructing ancestral character states under Wagner parsimony". Matematické biologické vědy. 87 (2): 199–229. doi:10.1016/0025-5564(87)90074-5. ISSN 0025-5564.
- ^ A b Fitch, Walter M. (1971). "Toward Defining the Course of Evolution: Minimum Change for a Specific Tree Topology". Systematická zoologie. 20 (4): 406–416. doi:10.2307/2412116. ISSN 0039-7989. JSTOR 2412116.
- ^ Stamatakis, A. (2006). "RAxML-VI-HPC: maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models" (PDF). Bioinformatika. 22 (21): 2688–2690. doi:10.1093/bioinformatics/btl446. ISSN 1367-4803. PMID 16928733.
- ^ Sankoff, David (1975). "Minimal Mutation Trees of Sequences". SIAM Journal on Applied Mathematics. 28 (1): 35–42. CiteSeerX 10.1.1.665.9596. doi:10.1137/0128004. ISSN 0036-1399.
- ^ A b C d E Schluter, Dolph; Price, Trevor; Mooers, Arne O.; Ludwig, Donald (1997). "Likelihood of Ancestor States in Adaptive Radiation". Vývoj. 51 (6): 1699. doi:10.2307/2410994. ISSN 0014-3820. JSTOR 2410994. PMID 28565128.
- ^ Felsenstein, Joseph (1973). "Maximum Likelihood and Minimum-Steps Methods for Estimating Evolutionary Trees from Data on Discrete Characters". Systematická zoologie. 22 (3): 240–249. doi:10.2307/2412304. ISSN 0039-7989. JSTOR 2412304.
- ^ A b C Cunningham, Clifford W.; Omland, Kevin E .; Oakley, Todd H. (1998). "Reconstructing ancestral character states: a critical reappraisal". Trendy v ekologii a evoluci. 13 (9): 361–366. doi:10.1016/S0169-5347(98)01382-2. ISSN 0169-5347. PMID 21238344.
- ^ Schluter, Arne O. Mooers, Dolph (1999). "Reconstructing Ancestor States with Maximum Likelihood: Support for One- and Two-Rate Models". Systematická biologie. 48 (3): 623–633. CiteSeerX 10.1.1.594.175. doi:10.1080/106351599260193. ISSN 1063-5157.
- ^ Li, Guoliang; Steel, Mike; Zhang, Louxin (2008). "More Taxa Are Not Necessarily Better for the Reconstruction of Ancestral Character States". Systematická biologie. 57 (4): 647–653. arXiv:0803.0195. doi:10.1080/10635150802203898. ISSN 1063-5157. PMID 18709600. S2CID 1373201.
- ^ A b Felsenstein, Joseph (1985). "Fylogeneze a srovnávací metoda". Americký přírodovědec. 125 (1): 1–15. doi:10.1086/284325. ISSN 0003-0147.
- ^ A b C d Yang, Ziheng; Kumar, Sudhir; Nei, Masatoshi (1995). "A new method of inference of ancestral nucleotide and amino acid sequences". Genetika. 141 (4): 1641–50. PMC 1206894. PMID 8601501.
- ^ Koshi, Jeffrey M.; Goldstein, Richard A. (1996). "Probabilistic reconstruction of ancestral protein sequences". Journal of Molecular Evolution. 42 (2): 313–320. Bibcode:1996JMolE..42..313K. CiteSeerX 10.1.1.1031.2646. doi:10.1007/BF02198858. ISSN 0022-2844. PMID 8919883. S2CID 15997589.
- ^ A b Pagel, Mark (1999). "The Maximum Likelihood Approach to Reconstructing Ancestral Character States of Discrete Characters on Phylogenies". Systematická biologie. 48 (3): 612–622. doi:10.1080/106351599260184. ISSN 1063-5157.
- ^ Guindon, Stéphane; Gascuel, Olivier (2003). "A Simple, Fast, and Accurate Algorithm to Estimate Large Phylogenies by Maximum Likelihood". Systematická biologie. 52 (5): 696–704. doi:10.1080/10635150390235520. ISSN 1063-5157. PMID 14530136.
- ^ Doornik, Jurgen A.; Ooms, Marius (2003). "Computational aspects of maximum likelihood estimation of autoregressive fractionally integrated moving average models". Výpočetní statistika a analýza dat. 42 (3): 333–348. doi:10.1016/S0167-9473(02)00212-8. ISSN 0167-9473.
- ^ A b Felsenstein, Joseph (1981). "Evolutionary trees from DNA sequences: A maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. Bibcode:1981JMolE..17..368F. doi:10.1007/BF01734359. ISSN 0022-2844. PMID 7288891. S2CID 8024924.
- ^ Eyre-Walker, Adam (1998). "Problems with Parsimony in Sequences of Biased Base Composition". Journal of Molecular Evolution. 47 (6): 686–690. Bibcode:1998JMolE..47..686E. doi:10.1007/PL00006427. ISSN 0022-2844. PMID 9847410. S2CID 26128712.
- ^ Pupko, T.; Pe'er, I.; Hasegawa, M.; Graur, D.; Friedman, N. (2002). "A branch-and-bound algorithm for the inference of ancestral amino-acid sequences when the replacement rate varies among sites: Application to the evolution of five gene families". Bioinformatika. 18 (8): 1116–1123. doi:10.1093/bioinformatics/18.8.1116. ISSN 1367-4803. PMID 12176835.
- ^ Gruenheit, N.; Lockhart, P. J.; Steel, M .; Martin, W. (2008). "Difficulties in Testing for Covarion-Like Properties of Sequences under the Confounding Influence of Changing Proportions of Variable Sites" (PDF). Molekulární biologie a evoluce. 25 (7): 1512–1520. doi:10.1093/molbev/msn098. ISSN 0737-4038. PMID 18424773.
- ^ Huelsenbeck, J. P.; Ronquist, F. (2001). "MRBAYES: Bayesian inference of phylogenetic trees". Bioinformatika. 17 (8): 754–755. doi:10.1093/bioinformatics/17.8.754. ISSN 1367-4803. PMID 11524383.
- ^ Yang, Ziheng (1997). "PAML: a program package for phylogenetic analysis by maximum likelihood". Bioinformatika. 13 (5): 555–556. doi:10.1093/bioinformatics/13.5.555. ISSN 1367-4803. PMID 9367129.
- ^ A b Huelsenbeck, John P.; Bollback, Jonathan P. (2001). "Empirical and Hierarchical Bayesian Estimation of Ancestral States". Systematická biologie. 50 (3): 351–366. CiteSeerX 10.1.1.319.4271. doi:10.1080/106351501300317978. ISSN 1076-836X. PMID 12116580.
- ^ Lutzoni, François; Pagel, Mark; Reeb, Valérie (2001). "Major fungal lineages are derived from lichen symbiotic ancestors". Příroda. 411 (6840): 937–940. Bibcode:2001Natur.411..937L. doi:10.1038/35082053. ISSN 0028-0836. PMID 11418855. S2CID 4414913.
- ^ Hanson-Smith, V.; Kolaczkowski, B.; Thornton, J. W. (2010). "Robustness of Ancestral Sequence Reconstruction to Phylogenetic Uncertainty". Molekulární biologie a evoluce. 27 (9): 1988–1999. doi:10.1093/molbev/msq081. ISSN 0737-4038. PMC 2922618. PMID 20368266.
- ^ Hillis, D .; Bull, J .; White, M.; Badgett, M.; Molineux, I. (1992). "Experimental phylogenetics: generation of a known phylogeny". Věda. 255 (5044): 589–592. Bibcode:1992Sci...255..589H. doi:10.1126/science.1736360. ISSN 0036-8075. PMID 1736360.
- ^ Oakley, Todd H .; Cunningham, Clifford W. (2000). "Independent contrasts succeed where ancestor reconstruction fails in a known bacteriophage phylogeny". Vývoj. 54 (2): 397–405. doi:10.1554/0014-3820(2000)054[0397:ICSWAR]2.0.CO;2. ISSN 0014-3820. PMID 10937216.
- ^ Finarelli, John A.; Flynn, John J. (2006). "Ancestral State Reconstruction of Body Size in the Caniformia (Carnivora, Mammalia): The Effects of Incorporating Data from the Fossil Record". Systematická biologie. 55 (2): 301–313. doi:10.1080/10635150500541698. ISSN 1063-5157. PMID 16611601.
- ^ Albert, James S .; Johnson, Derek M .; Knouft, Jason H. (2009). „Fosílie poskytují lepší odhady velikosti těla předků než existující taxony v rybách“. Acta Zoologica. 90: 357–384. doi:10.1111 / j.1463-6395.2008.00364.x. ISSN 0001-7272.
- ^ Slater, Graham J .; Harmon, Luke J .; Alfaro, Michael E. (2012). „Integrace fosilií s molekulárními fylogeniemi zlepšuje závěry o vývoji vlastností“. Vývoj. 66 (12): 3931–3944. doi:10.1111 / j.1558-5646.2012.01723.x. ISSN 0014-3820. PMID 23206147. S2CID 24390146.
- ^ Webster, A. J .; Purvis, A. (2002). "Testování přesnosti metod pro rekonstrukci předků stavů spojitých znaků". Sborník Královské společnosti B: Biologické vědy. 269 (1487): 143–149. doi:10.1098 / rspb.2001.1873. ISSN 0962-8452. PMC 1690869. PMID 11798429.
- ^ Maddison, Wayne; Midford, Peter; Otto, Sarah (2007). „Odhad vlivu binární postavy na spekulace a vyhynutí“. Systematická biologie. 56 (5): 701–710. doi:10.1080/10635150701607033. ISSN 1063-5157. PMID 17849325.
- ^ A b Martins, Emilia P (1994). "'Odhad rychlosti fenotypového vývoje ze srovnávacích údajů ". Americký přírodovědec. 144 (2): 193–209. doi:10.1086/285670.
- ^ Felsenstein, J (1988). "Fylogeneze a kvantitativní znaky". Výroční přehled ekologie a systematiky. 19: 445–471. doi:10.1146 / annurev.ecolsys.19.1.445.
- ^ Garland, T. Jr.; Dickerman, A. W .; Janis, C. M .; Jones, J. A. (1993). "Fylogenetická analýza kovariance počítačovou simulací". Systematická biologie. 42 (3): 265–292. doi:10.1093 / sysbio / 42.3.265.
- ^ Cooper, N., G. H. Thomas, C. Venditti, A. Meade a R. P. Freckleton. 2015. Upozornění k použití modelů Ornstein Uhlenbeck v makroevolučních studiích. Biologický žurnál společnosti Linnean.
- ^ A b C d Elliot, Michael G; Mooers, Arne Ø (2014). „Odvození stavů předků bez předpokladu neutrality nebo postupnosti pomocí stabilního modelu kontinuálního vývoje postav“. BMC Evoluční biologie. 14 (1): 226. doi:10.1186 / s12862-014-0226-8. ISSN 1471-2148. PMC 4266906. PMID 25427971.
- ^ Griffith, Oliver W .; Blackburn, Daniel G .; Brandley, Matthew C .; Van Dyke, James U .; Whittington, Camilla M .; Thompson, Michael B. (2015). „Rekonstrukce stavu předků vyžadují biologické důkazy k testování evolučních hypotéz: Případová studie zkoumající vývoj reprodukčního režimu u plazivých plazů“. Journal of Experimental Zoology Part B: Molecular and Developmental Evolution. 324 (6): 493–503. doi:10.1002 / jez.b.22614. ISSN 1552-5007. PMID 25732809.
- ^ Erkenbrack, E. M .; Ako-Asare, K .; Miller, E .; Tekelenburg, S .; Thompson, J. R .; Romano, L. (2016). "Rekonstrukce stavu předků srovnávací analýzou jádra GRN operujícího u ostnokožců". Vývojové geny a evoluce. 226 (1): 37–45. doi:10.1007 / s00427-015-0527-r. ISSN 0949-944X. PMID 26781941. S2CID 6067524.
- ^ Erkenbrack, E. M .; Thompson, J. R. (2019). „Fylogenetika buněčného typu informuje o evolučním původu identity ostnatokožných larválních skeletogenních buněk“. Komunikační biologie. 2: 160. doi:10.1038 / s42003-019-0417-3. ISSN 2399-3642. PMC 6499829. PMID 31069269.
- ^ A b Chang, Belinda S.W .; Ugalde, Juan A .; Matz, Michail V. (2005). „Aplikace rekonstrukce proteinů předků při porozumění funkci proteinů: proteiny podobné GFP“. Metody v enzymologii. 395: 652–670. doi:10.1016 / S0076-6879 (05) 95034-9. ISBN 9780121828004. ISSN 0076-6879. PMID 15865989.
- ^ Hodges, W. L. (2004). „Vývoj viviparity u rohatých ještěrek (Phrynosoma): testování hypotézy chladného podnebí “. Journal of Evolutionary Biology. 17 (6): 1230–1237. doi:10.1111 / j.1420-9101.2004.00770.x. PMID 15525408. S2CID 25069395.
- ^ Maddison, W. P. (1991). „Rekonstrukce šetrnosti domorodých stavů se čtvercovými změnami pro znaky s kontinuální hodnotou na fylogenetickém stromu“. Systematická biologie. 40 (3): 304–314. doi:10.1093 / sysbio / 40.3.304.
- ^ Bonine, K. E. (2005). „Variace typu svalových vláken u ještěrek (Squamata) a fylogenetická rekonstrukce předpokládaných stavů předků“. Journal of Experimental Biology. 208 (23): 4529–4547. doi:10.1242 / jeb.01903. PMID 16339872.
- ^ Ridley, Mark (1983). Vysvětlení organické rozmanitosti: komparativní metoda a adaptace pro páření. Oxford: Clarendon Press.
- ^ Maddison, Wayne P. (1990). „Metoda pro testování korelovaného vývoje dvou binárních znaků: Jsou zisky nebo ztráty soustředěny na určitých větvích fylogenetického stromu?“. Vývoj. 44 (3): 539–557. doi:10.2307/2409434. ISSN 0014-3820. JSTOR 2409434. PMID 28567979.
- ^ Göbel, Ulrike; Sander, Chris; Schneider, Reinhard; Valencia, Alfonso (1994). "Korelované mutace a zbytkové kontakty v proteinech". Proteiny: struktura, funkce a genetika. 18 (4): 309–317. doi:10,1002 / prot. 340180402. ISSN 0887-3585. PMID 8208723. S2CID 14978727.
- ^ Shindyalov, I.N .; Kolchanov, N.A .; Sander, C. (1994). „Lze předpovědět trojrozměrné kontakty v proteinových strukturách analýzou korelovaných mutací?“. Proteinové inženýrství, design a výběr. 7 (3): 349–358. doi:10.1093 / protein / 7.3.349. ISSN 1741-0126. PMID 8177884.
- ^ Korber, B. T .; Farber, R. M .; Wolpert, D. H .; Lapedes, A. S. (1993). „Kovovarizace mutací ve smyčce V3 obalového proteinu viru lidské imunodeficience typu 1: informační teoretická analýza“. Sborník Národní akademie věd. 90 (15): 7176–7180. Bibcode:1993PNAS ... 90,7176K. doi:10.1073 / pnas.90.15.7176. ISSN 0027-8424. PMC 47099. PMID 8346232.
- ^ Shapiro, B. (2006). „Fylogenetická metoda pro detekci pozitivní epistázy v genových sekvencích a její aplikace na evoluci viru RNA“. Molekulární biologie a evoluce. 23 (9): 1724–1730. doi:10.1093 / molbev / msl037. ISSN 0737-4038. PMID 16774976.
- ^ Poon, umění F. Y .; Lewis, Fraser I .; Rybník, Sergei L. Kosakovsky; Frost, Simon D. W. (2007). „Model evoluční sítě odhaluje stratifikované interakce ve smyčce V3 obálky HIV-1“. PLOS výpočetní biologie. 3 (11): e231. Bibcode:2007PLSCB ... 3..231P. doi:10.1371 / journal.pcbi.0030231. ISSN 1553-734X. PMC 2082504. PMID 18039027.
- ^ Jermann, Thomas M .; Opitz, Jochen G .; Stackhouse, Joseph; Benner, Steven A. (1995). "Rekonstrukce evoluční historie nadrodiny artiodactyl ribonukleázy". Příroda. 374 (6517): 57–59. Bibcode:1995 Natur.374 ... 57J. doi:10.1038 / 374057a0. ISSN 0028-0836. PMID 7532788. S2CID 4315312.
- ^ Sadqi, M .; de Alba, E .; Perez-Jimenez, R .; Sanchez-Ruiz, J. M .; Munoz, V. (2009). „Navržený protein jako experimentální model pravěkého skládání“. Sborník Národní akademie věd. 106 (11): 4127–4132. Bibcode:2009PNAS..106.4127S. doi:10.1073 / pnas.0812108106. ISSN 0027-8424. PMC 2647338. PMID 19240216.
- ^ Chang, B. S. W .; Jonsson, K .; Kazmi, M. A .; Donoghue, M. J .; Sakmar, T. P. (2002). "Obnovení vizuálního pigmentu předků funkčního archosaura". Molekulární biologie a evoluce. 19 (9): 1483–1489. doi:10.1093 / oxfordjournals.molbev.a004211. ISSN 0737-4038. PMID 12200476.
- ^ Zhang, C .; Zhang, M .; Ju, J .; Nietfeldt, J .; Wise, J .; Terry, P. M .; Olson, M .; Kachman, S. D .; Wiedmann, M .; Samadpour, M .; Benson, A. K. (2003). „Diverzifikace genomu ve fylogenetických liniích I a II Listeria monocytogenes: Identifikace segmentů jedinečných pro populace linie II“. Journal of Bacteriology. 185 (18): 5573–5584. doi:10.1128 / JB.185.18.5573-5584.2003. ISSN 0021-9193. PMC 193770. PMID 12949110.
- ^ Krishnan, N. M. (2004). „Rekonstrukce sekvence předků v mitochondriální DNA primátů: kompoziční zkreslení a účinek na funkční závěr“. Molekulární biologie a evoluce. 21 (10): 1871–1883. doi:10.1093 / molbev / msh198. ISSN 0737-4038. PMID 15229290.
- ^ Gaschen, B. (2002). „Úvahy o rozmanitosti při výběru vakcíny proti HIV-1“. Věda. 296 (5577): 2354–2360. Bibcode:2002Sci ... 296.2354G. doi:10.1126 / science.1070441. ISSN 0036-8075. PMID 12089434. S2CID 39452987.
- ^ Rolland, M .; Jensen, M. A .; Nickle, D. C .; Yan, J .; Learn, G. H .; Heath, L .; Weiner, D .; Mullins, J. I. (2007). „Rekonstrukce a funkce proteinů předků viru lidské imunodeficience typu 1 předků“. Journal of Virology. 81 (16): 8507–8514. doi:10.1128 / JVI.02683-06. ISSN 0022-538X. PMC 1951385. PMID 17537854.
- ^ Kothe, Denise L .; Li, Yingying; Decker, Julie M .; Bibollet-Ruche, Frederic; Zammit, Kenneth P .; Salazar, Maria G .; Chen, Yalu; Weng, Zhiping; Weaver, Eric A .; Gao, Feng; Haynes, Barton F .; Shaw, George M .; Korber, Bette T.M .; Hahn, Beatrice H. (2006). „Předkové a konsensuální obalové imunogeny pro HIV-1 podtyp C“. Virologie. 352 (2): 438–449. doi:10.1016 / j.virol.2006.05.011. ISSN 0042-6822. PMID 16780913.
- ^ Mullins, J. I .; Haigwood, N.L.; Barnett, S. W .; Montefiori, D .; Edmonson, P. F .; McLaughlin, S .; Hensel, M. T .; Mahalanabis, M .; Li, F. (01.09.2005). „Virus lidské imunodeficience typu 1 podtyp B proteinu předkové obálky je funkční a vyvolává neutralizaci protilátek u králíků podobně jako ty, které jsou vyvolány obálkou podtypu B“. Journal of Virology. 79 (17): 11214–11224. doi:10.1128 / JVI.79.17.11214-11224.2005. ISSN 0022-538X. PMC 1193599. PMID 16103173.
- ^ McCloskey, R. M .; Liang, R. H .; Harrigan, P. R .; Brumme, Z. L .; Poon, A. F. Y. (2014). „Vyhodnocení fylogenetických metod pro rekonstrukci přenesených variant HIV pomocí longitudinálních klonálních dat o HIV“. Journal of Virology. 88 (11): 6181–6194. doi:10.1128 / JVI.00483-14. ISSN 0022-538X. PMC 4093844. PMID 24648453.
- ^ Borque, Guillaume; Pevzner, Pavel A. (2012). „Evoluce v měřítku genomu: Rekonstrukce genových řádů u rodových druhů“. Výzkum genomu. 12 (1): 26–36. PMC 155248. PMID 11779828.
- ^ Sudý, S; Goldreich, O (1981). "Problém sekvence generátoru minimální délky je NP-tvrdý". Journal of Algorithms. 2 (3): 311–313. doi:10.1016/0196-6774(81)90029-8. ISSN 0196-6774.
- ^ Fertin, Guillaume; Labarre, Anthony; Rusu, Irena; Tannier, Eric; Vialette, Stéphane (2009). Kombinatorika přeskupení genomu. MIT Stiskněte. doi:10,7551 / mitpress / 9780262062824,001,0001. ISBN 9780262258753.
- ^ Wienberg, Johannes (2004). "Vývoj eutherianských chromozomů". Aktuální názor na genetiku a vývoj. 14 (6): 657–666. doi:10.1016 / j.gde.2004.10.001. ISSN 0959-437X. PMID 15531161.
- ^ Froenicke, Lutz; Garcia Caldés, Montserrat; Graphodatsky, Alexander; Müller, Stefan; Lyons, Leslie; Robinson, Terence; Volleth, Marianne; Yang, Fengtang; Wienberg, Johannes (2006). „Naznačují molekulární cytogenetika a bioinformatika odlišné modely genomů savců předků?“. Výzkum genomu. 16 (3): 306–310. doi:10,1101 / gr.3955206. ISSN 1088-9051. PMC 1415215. PMID 16510895.
- ^ Murphy, W. J. (2005). "Dynamika vývoje savčích chromozomů odvozená z multidruhových srovnávacích map". Věda. 309 (5734): 613–617. Bibcode:2005Sci ... 309..613M. doi:10.1126 / science.1111387. ISSN 0036-8075. PMID 16040707. S2CID 32314883.
- ^ Ma, J .; Zhang, L .; Suh, B. B .; Raney, B. J .; Burhans, R. C .; Kent, W. J .; Blanchette, M .; Haussler, D .; Miller, W. (2006). „Rekonstrukce souvislých oblastí genomu předků“. Výzkum genomu. 16 (12): 1557–1565. doi:10,1101 / gr. 5383506. ISSN 1088-9051. PMC 1665639. PMID 16983148.
- ^ Oyserman, Ben O .; Moya, Francisco; Lawson, Christopher E .; Garcia, Antonio L .; Vogt, Mark; Heffernen, Mitchell; Noguera, Daniel R .; McMahon, Katherine D. (2016-04-29). „Rekonstrukce genomu předků identifikuje evoluční základ pro získávání znaků u bakterií akumulujících polyfosfáty“. Časopis ISME. 10 (12): 2931–2945. doi:10.1038 / ismej.2016.67. ISSN 1751-7370. PMC 5148189. PMID 27128993.
- ^ A b C Clark, John; Ree, Richard; Alfaro, Michael; King, Matthew; Wagner, Warren; Roalson, Eric (2008). „Srovnávací studie v metodách rekonstrukce předků: sledování nejistých dějin ostrovních linií“. Systematická biologie. 57 (5): 693–707. doi:10.1080/10635150802426473. ISSN 1063-5157. PMID 18853357.
- ^ Huelsenbeck, John P .; Nielsen, Rasmus; Bollback, Jonathan P. (2003). „Stochastické mapování morfologických znaků“. Systematická biologie. 52 (2): 131–158. doi:10.1080/10635150390192780. ISSN 1063-5157. PMID 12746144.
- ^ Ronquist, Fredrik (1996). „DIVA verze 1.1“.
Počítačový program a manuál dostupné na anonymním FTP z Uppsala University
[trvalý mrtvý odkaz ] - ^ Ree, Richard H .; Moore, Brian R.; Webb, Campbell O .; Donoghue, Michael J. (2005). "Pravděpodobnostní rámec pro odvození vývoje geografického rozsahu na fylogenetických stromech". Vývoj. 59 (11): 2299–2311. doi:10.1111 / j.0014-3820.2005.tb00940.x. ISSN 0014-3820. PMID 16396171. S2CID 23245573.
- ^ A b C Lemmon, Alan; Lemmon, Emily Moriarty (2008). „Pravděpodobnostní rámec pro odhad fylogeografické historie na souvislé krajině“. Systematická biologie. 57 (4): 544–561. doi:10.1080/10635150802304761. ISSN 1063-5157. PMID 18686193.
- ^ A b Sturtevant, A. H .; Dobžanský, T. (1936). „Inverze ve třetím chromozomu divokých ras rodu Drosophila Pseudoobscura a jejich využití při studiu dějin druhů“ (PDF). Sborník Národní akademie věd. 22 (7): 448–450. Bibcode:1936PNAS ... 22..448S. doi:10.1073 / pnas.22.7.448. ISSN 0027-8424. PMC 1076803. PMID 16577723.
- ^ A b Campbell, Lyle (1998). Historická lingvistika: úvod. Edinburgh: Edinburgh University Press.
- ^ Yang, Z. (2007). „PAML 4: Fylogenetická analýza podle maximální pravděpodobnosti“. Molekulární biologie a evoluce. 24 (8): 1586–1591. CiteSeerX 10.1.1.322.1650. doi:10,1093 / molbev / msm088. ISSN 0737-4038. PMID 17483113.
- ^ „Lazarus: softwarový nástroj pro rekonstrukci proteinových sekvencí předků“. markov.uoregon.edu. Archivovány od originál dne 7. 3. 2015. Citováno 2019-03-07.
- ^ Pond, S. L. K .; Frost, S. D. W .; Muse, S. V. (2004). „HyPhy: testování hypotéz pomocí fylogenezí“. Bioinformatika. 21 (5): 676–679. doi:10.1093 / bioinformatika / bti079. ISSN 1367-4803. PMID 15509596.
- ^ Maddison, W. P .; Maddison, D. R. (2015). „Mesquite: modulární systém pro evoluční analýzu. Verze 2.75“.
- ^ A b Tamura, K .; Stecher, G .; Peterson, D .; Filipski, A .; Kumar, S. (2013). „MEGA6: Molecular Evolutionary Genetics Analysis verze 6.0“. Molekulární biologie a evoluce. 30 (12): 2725–2729. doi:10,1093 / molbev / mst197. ISSN 0737-4038. PMC 3840312. PMID 24132122.
- ^ Ronquist, F .; Huelsenbeck, J. P. (2003). „MrBayes 3: Bayesovská fylogenetická inference podle smíšených modelů“. Bioinformatika. 19 (12): 1572–1574. doi:10.1093 / bioinformatika / btg180. ISSN 1367-4803. PMID 12912839.
- ^ Hubisz, M. J .; Pollard, K. S .; Siepel, A. (2010). „PHAST a RPHAST: fylogenetická analýza s modely časoprostoru“. Briefings in Bioinformatics. 12 (1): 41–51. doi:10.1093 / bib / bbq072. ISSN 1467-5463. PMC 3030812. PMID 21278375.
- ^ Bollback, JonathanP (2006). „SIMMAP: Stochastické mapování znaků diskrétních znaků na fylogenezích“. BMC bioinformatika. 7 (1): 88. doi:10.1186/1471-2105-7-88. ISSN 1471-2105. PMC 1403802. PMID 16504105.
- ^ Paradis, Emmanuel (2012). Analýza fylogenetiky a evoluce s R.. New York: Springer-Verlag.
- ^ Rossnes, Roald; Eidhammer, Ingvar; Liberles, David A (2005). „Fylogenetická rekonstrukce stavů předků pro genovou expresi a data sestřihu mRNA“. BMC bioinformatika. 6 (1): 127. doi:10.1186/1471-2105-6-127. ISSN 1471-2105. PMC 1166541. PMID 15921519.
- ^ Drummond, A. J .; Suchard, M. A .; Xie, D .; Rambaut, A. (2012). „Bayesovská fylogenetika s BEAUti a BEAST 1.7“. Molekulární biologie a evoluce. 29 (8): 1969–1973. doi:10,1093 / molbev / mss075. ISSN 0737-4038. PMC 3408070. PMID 22367748.
- ^ FitzJohn, Richard G. (2012). "Diversitree: srovnávací fylogenetické analýzy diverzifikace v R". Metody v ekologii a evoluci. 3 (6): 1084–1092. doi:10.1111 / j.2041-210X.2012.00234.x. ISSN 2041-210X.
- ^ Pagel, M. (1994). „Detection Correlated Evolution on Phylogenies: A General Method for the Comparative Analysis of Discrete Characters“. Sborník Královské společnosti B: Biologické vědy. 255 (1342): 37–45. Bibcode:1994RSPSB.255 ... 37P. doi:10.1098 / rspb.1994.0006. ISSN 0962-8452. S2CID 85903564.
- ^ Yu, Yan; Harris, A.J .; On, Xingjin (2010). „S-DIVA (Statistical Dispersal-Vicariance Analysis): A tool for inferring biogeographic history“. Molekulární fylogenetika a evoluce. 56 (2): 848–850. doi:10.1016 / j.ympev.2010.04.011. ISSN 1055-7903. PMID 20399277.
- ^ Arias, J. Salvador; Szumik, Claudia A .; Goloboff, Pablo A. (2011). "Prostorová analýza vikariátu: metoda pro použití přímých geografických informací v historické biogeografii". Kladistika. 27 (6): 617–628. doi:10.1111 / j.1096-0031.2011.00353.x. ISSN 0748-3007. S2CID 85747431.
- ^ Jones, B. R .; Rajaraman, A .; Tannier, E .; Chauve, C. (2012). „ANGES: rekonstrukce předků GEnomeS map“. Bioinformatika. 28 (18): 2388–2390. doi:10.1093 / bioinformatika / bts457. ISSN 1367-4803. PMID 22820205.
- ^ Larget, Bret; Kadane, Joseph B .; Simon, Donald L. (2005). „Bayesiánský přístup k odhadu uspořádání genomu předků“. Molekulární fylogenetika a evoluce. 36 (2): 214–223. doi:10.1016 / j.ympev.2005.03.026. ISSN 1055-7903. PMID 15893477.
- ^ Csuos, M. (2010). "Počet: evoluční analýza fylogenetických profilů s šetrností a pravděpodobností". Bioinformatika. 26 (15): 1910–1912. doi:10.1093 / bioinformatika / btq315. ISSN 1367-4803. PMID 20551134.
- ^ Carmel, Liran; Vlk, Jurij I.; Rogozin, Igor B .; Koonin, Eugene V. (2010). „EREM: Odhad parametrů a rekonstrukce předků pomocí algoritmu očekávání a maximalizace pravděpodobnostního modelu evoluce binárních znaků genomu“. Pokroky v bioinformatice. 2010: 1–4. doi:10.1155/2010/167408. ISSN 1687-8027. PMC 2866244. PMID 20467467.
- ^ Patro, Rob; Sefer, Emre; Malin, Justin; Marçais, Guillaume; Navlakha, Saket; Kingsford, Carl (2012). „Šetrná rekonstrukce vývoje sítě“. Algoritmy pro molekulární biologii. 7 (1): 25. doi:10.1186/1748-7188-7-25. ISSN 1748-7188. PMC 3492119. PMID 22992218.
- ^ Diallo, A. B .; Makarenkov, V .; Blanchette, M. (2009). „Ancestors 1.0: a web server for rodové sekvence rekonstrukce“. Bioinformatika. 26 (1): 130–131. doi:10.1093 / bioinformatika / btp600. ISSN 1367-4803. PMID 19850756.
- ^ Ashkenazy, H .; Penn, O .; Doron-Faigenboim, A .; Cohen, O .; Cannarozzi, G .; Zomer, O .; Pupko, T. (2012). "FastML: webový server pro pravděpodobnostní rekonstrukci předků". Výzkum nukleových kyselin. 40 (W1): W580 – W584. doi:10.1093 / nar / gks498. ISSN 0305-1048. PMC 3394241. PMID 22661579.
- ^ Hu, Fei; Lin, Yu; Tang, Jijun (2014). „MLGO: rekonstrukce fylogeneze a odvození předků z údajů o genovém pořadí“. BMC bioinformatika. 15 (1): 354. doi:10.1186 / s12859-014-0354-6. ISSN 1471-2105. PMC 4236499. PMID 25376663.
- ^ Bouchard-Cote, A .; Jordan, M. I. (2012). „Evoluční závěr prostřednictvím Poissonova Indel procesu“. Sborník Národní akademie věd. 110 (4): 1160–1166. arXiv:1207.6327. Bibcode:2013PNAS..110.1160B. doi:10.1073 / pnas.1220450110. ISSN 0027-8424. PMC 3557041. PMID 23275296.
- ^ Thorne, Jeffrey L .; Kishino, Hirohisa; Felsenstein, Joseph (1991). "Evoluční model pro maximální pravděpodobnost zarovnání sekvencí DNA". Journal of Molecular Evolution. 33 (2): 114–124. Bibcode:1991JMolE..33..114T. doi:10.1007 / BF02193625. ISSN 0022-2844. PMID 1920447. S2CID 13333056.
- ^ Fraser, Christophe; Poon, umění F. Y .; Swenson, Luke C .; Bunnik, Evelien M .; Edo-Matas, Diana; Schuitemaker, Hanneke; van 't Wout, Angélique B .; Harrigan, P. Richard (2012). „Rekonstrukce dynamiky vývoje HIV u hostitelů ze sériových dat hluboké sekvence“. PLOS výpočetní biologie. 8 (11): e1002753. Bibcode:2012PLSCB ... 8E2753P. doi:10.1371 / journal.pcbi.1002753. ISSN 1553-7358. PMC 3486858. PMID 23133358.
- ^ Beerenwinkel, Niko; Schwarz, Roland F .; Trinh, Anne; Sipos, Botond; Brenton, James D .; Goldman, Nick; Markowetz, Florian (2014). "Fylogenetická kvantifikace intra-nádorové heterogenity". PLOS výpočetní biologie. 10 (4): e1003535. arXiv:1306.1685. Bibcode:2014PLSCB..10E3535S. doi:10.1371 / journal.pcbi.1003535. ISSN 1553-7358. PMC 3990475. PMID 24743184.