Analýza přímé vazby - Direct coupling analysis
Analýza přímé vazby nebo DCA je zastřešující termín zahrnující několik metod pro analýzu sekvenčních dat v systému Windows výpočetní biologie.[1] Společnou myšlenkou těchto metod je použití statistické modelování kvantifikovat sílu přímého vztahu mezi dvěma pozicemi a biologická sekvence, kromě efektů z jiných pozic. To kontrastuje s obvyklými opatřeními korelace, který může být velký i když neexistuje přímý vztah mezi pozicemi (odtud název Přímo vazebná analýza). Takovým přímým vztahem může být například evoluční tlak pro dvě pozice pro zachování vzájemné kompatibility v biomolekulární struktura sekvence, vedoucí k molekulární koevoluce DCA byl použit v závěru kontakty proteinových zbytků,[1][2][3][4] Predikce struktury RNA,[5][6] závěr interakční sítě protein-protein[7][8][9] a modelování fitness krajiny.[10][11][12]
Matematický model a odvození
Matematický model
Základem DCA je statistický model pro variabilitu v rámci souboru fylogeneticky příbuzné biologické sekvence. Když je namontován na a vícenásobné zarovnání sekvence (MSA) sekvencí délky , model definuje pravděpodobnost pro všechny možné sekvence stejné délky.[1] Tuto pravděpodobnost lze interpretovat jako pravděpodobnost, že dotyčná sekvence patří do stejné třídy sekvencí jako ty v MSA, například třída všech proteinových sekvencí patřících ke konkrétní rodina bílkovin.
Označíme posloupnost , s bytost kategorické proměnné zastupující monomery sekvence (pokud jsou sekvence například zarovnaný aminokyselina sekvence proteinů z rodiny proteinů, brát jako hodnoty některou z 20 standardní aminokyseliny ). Pravděpodobnost sekvence v modelu je pak definována jako
kde
- jsou sady reálných čísel představujících parametry modelu (více níže)
- je normalizační konstanta (reálné číslo) k zajištění
Parametry závisí na jedné pozici a symbol v této poloze. Obvykle se jim říká pole[1] a představují sklon k nalezení symbolu v určité poloze. Parametry závisí na dvojicích pozic a symboly na těchto pozicích. Obvykle se jim říká spojky[1] a představují interakci, tj. pojem kvantifikující vzájemnou kompatibilitu symbolů na obou pozicích. Model je plně připojen, takže existují interakce mezi všemi páry pozic. Na model lze pohlížet jako na zobecnění Isingův model, přičemž otočení nepřijímají pouze dvě hodnoty, ale jakoukoli hodnotu z dané konečné abecedy. Ve skutečnosti, když je velikost abecedy 2, model se zmenší na Isingův model. Protože to také připomíná model stejného jména, často se mu říká Pottsův model.[13]
Ani znalost pravděpodobností všech sekvencí neurčuje parametry jedinečně. Například jednoduchá transformace parametrů
pro libovolnou sadu reálných čísel ponechává pravděpodobnosti stejné. The funkce pravděpodobnosti je invariantní i při těchto transformacích, takže data nelze použít k opravě těchto stupňů volnosti (i když a předchozí může to udělat[3]).
Konvence často nalezená v literatuře[3][14] je opravit tyto stupně volnosti tak, aby Frobeniova norma vazební matice
je minimalizován (nezávisle pro každou dvojici pozic a ).
Maximální odvození entropie
K ospravedlnění Pottsova modelu je často poznamenáno, že jej lze odvodit po a princip maximální entropie:[15] Pro danou sadu vzorků kovariance a frekvence, Pottsův model představuje distribuci s maximem Shannonova entropie všech distribucí reprodukujících tyto kovariance a frekvence. Pro vícenásobné zarovnání sekvence, vzorové kovariance jsou definovány jako
- ,
kde je frekvence hledání symbolů a na pozicích a ve stejném pořadí v MSA a frekvence hledání symbolu v poloze . Pottsův model je pak jedinečnou distribucí který maximalizuje funkčnost
První termín ve funkčním je Shannonova entropie distribuce. The jsou Lagrangeovy multiplikátory ujistit se , s což je okrajová pravděpodobnost nalezení symbolů na pozicích . Lagrangeův multiplikátor zajišťuje normalizaci. Maximalizace této funkční a identifikace
vede k výše uvedenému modelu Potts. Tento postup poskytuje pouze funkční formu Pottsova modelu, zatímco číselné hodnoty Lagrangeových multiplikátorů (identifikované pomocí parametrů) je stále třeba určit přizpůsobením modelu datům.
Přímé vazby a nepřímá korelace
Ústředním bodem DCA je interpretace (který může být reprezentován jako matice, pokud existují možné symboly) jako přímé spojení. Pokud jsou dvě polohy pod kloubem evoluční tlak (například k udržení strukturální vazby), lze očekávat, že tato propojení budou velká, protože významnou pravděpodobnost by měly mít pouze sekvence s odpovídajícími páry symbolů. Na druhou stranu velká korelace mezi dvěma polohami nemusí nutně znamenat, že spojky jsou velké, protože velké spojky mezi např. pozic a může vést k velkým korelacím mezi pozicemi a zprostředkované pozicí .[1] Ve skutečnosti byly takové nepřímé korelace zapleteny do vysoké míry falešně pozitivních výsledků při odvozování kontaktů proteinových zbytků pomocí korelačních opatření, jako je vzájemné informace.[16]
Odvození
Odvození Pottsova modelu na a vícenásobné zarovnání sekvence (MSA) pomocí odhad maximální věrohodnosti je obvykle výpočetně neřešitelný, protože je třeba vypočítat normalizační konstantu , což je pro délku sekvence a možné symboly součet termíny (což znamená například pro malou rodinu proteinových domén s 30 pozicemi podmínky). Proto byla vyvinuta řada aproximací a alternativ:
- mpDCA[17] (závěr vychází z předávání zpráv / šíření víry )
- mfDCA[1] (odvození na základě a střední aproximace pole )
- gaussDCA[14] (odvození na základě a Gaussian přiblížení)
- plmDCA[3] (závěr vychází z pseudopravděpodobnosti )
- Adaptivní rozšiřování klastrů[18]
Všechny tyto metody vedou k určité formě odhadu sady parametrů maximalizovat pravděpodobnost MSA. Mnoho z nich zahrnuje regulace nebo předchozí podmínky k zajištění dobře položeného problému nebo k podpoře řídkého řešení.
Aplikace
Předpověď kontaktu se zbytky bílkovin
Možnou interpretací velkých hodnot vazeb v modelu přizpůsobeném MSA proteinové rodiny je existence konzervovaných kontaktů mezi pozicemi (zbytky) v rodině. Takový kontakt může vést k molekulární koevoluce, protože mutace v jednom ze dvou zbytků bez kompenzační mutace v druhém zbytku pravděpodobně naruší proteinová struktura a negativně ovlivnit kondici proteinu. Zbytkové páry, pro které existuje silný selektivní tlak k udržení vzájemné kompatibility se proto očekává, že budou mutovat společně nebo vůbec. Tato myšlenka (která byla v literatuře známa dlouho před koncepcí DCA[19]) byl použit k předpovědi proteinové kontaktní mapy například analýzou vzájemné informace mezi proteinovými zbytky.
V rámci DCA skóre pro sílu přímé interakce mezi dvojicí zbytků je často definován[3][14] pomocí normy Frobenius odpovídající vazební matice a použití průměrná korekce produktu (APC):
kde byl definován výše a
- .
Tento korekční člen byl poprvé zaveden pro vzájemné informace[20] a používá se k odstranění předpětí konkrétních pozic k produkci velkých . Byly také použity výsledky, které jsou neměnné při transformaci parametrů, které neovlivňují pravděpodobnosti.[1]Třídění všech párů zbytků podle tohoto skóre vede k seznamu, ve kterém je horní část seznamu silně obohacena o kontakty zbytků ve srovnání s mapou kontaktu proteinu homologního proteinu.[4] Kvalitní předpovědi kontaktů se zbytky jsou cenné jako předchozí informace v predikce proteinové struktury.[4]
Odvození interakce protein-protein
DCA lze použít pro detekci konzervovaných interakce mezi rodinami proteinů a pro predikci, které páry zbytků vytvářejí kontakty v a proteinový komplex.[7][8] Takové předpovědi lze použít při generování strukturálních modelů pro tyto komplexy,[21] nebo při odvozování interakčních sítí protein-protein vytvořených z více než dvou proteinů.[8]
Modelování fitness krajiny
DCA lze použít k modelování krajin fitness a k predikci vlivu mutace v aminokyselinové sekvenci proteinu na jeho kondici.[10][11]
externí odkazy
Online služby:
Zdrojový kód:
Užitečné aplikace:
Reference
- ^ A b C d E F G h Morcos, F .; Pagnani, A .; Lunt, B .; Bertolino, A .; Marks, D. S .; Sander, C .; Zecchina, R .; Onuchic, J. N .; Hwa, T .; Weigt, M. (21. listopadu 2011). „Analýza přímé vazby koevoluce zbytků zachycuje nativní kontakty napříč mnoha rodinami proteinů“. Sborník Národní akademie věd. 108 (49): E1293 – E1301. arXiv:1110.5223. Bibcode:2011PNAS..108E1293M. doi:10.1073 / pnas.1111471108. PMC 3241805. PMID 22106262.
- ^ Kamisetty, H .; Ovchinnikov, S .; Baker, D. (5. září 2013). „Posouzení užitečnosti predikcí rezidua-rezidua na základě koevoluce v éře bohaté na sekvenci a strukturu“. Sborník Národní akademie věd. 110 (39): 15674–15679. Bibcode:2013PNAS..11015674K. doi:10.1073 / pnas.1314045110. PMC 3785744. PMID 24009338.
- ^ A b C d E Ekeberg, Magnus; Lövkvist, Cecilia; Lan, Yueheng; Weigt, Martin; Aurell, Erik (11. ledna 2013). "Vylepšená predikce kontaktu v proteinech: Využití pseudolikelihoods k odvození Pottsových modelů". Fyzický přehled E. 87 (1): 012707. arXiv:1211.1281. Bibcode:2013PhRvE..87a2707E. doi:10.1103 / PhysRevE.87.012707. PMID 23410359. S2CID 27772365.
- ^ A b C Marks, Debora S .; Colwell, Lucy J .; Sheridan, Robert; Hopf, Thomas A .; Pagnani, Andrea; Zecchina, Riccardo; Sander, Chris; Sali, Andrej (7. prosince 2011). „Proteinová 3D struktura vypočítaná z variace evoluční sekvence“. PLOS ONE. 6 (12): e28766. Bibcode:2011PLoSO ... 628766M. doi:10,1371 / journal.pone.0028766. PMC 3233603. PMID 22163331.
- ^ De Leonardis, Eleonora; Lutz, Benjamin; Ratz, Sebastian; Cocco, Simona; Monasson, Rémi; Schug, Alexander; Weigt, Martin (29. září 2015). „Přímá vazebná analýza nukleotidové koevoluce usnadňuje predikci sekundární a terciární struktury RNA“. Výzkum nukleových kyselin. 43 (21): 10444–55. doi:10.1093 / nar / gkv932. PMC 4666395. PMID 26420827.
- ^ Weinreb, Caleb; Riesselman, Adam J .; Ingraham, John B .; Gross, Torsten; Sander, Chris; Marks, Debora S. (květen 2016). „3D RNA a funkční interakce z evolučních vazeb“. Buňka. 165 (4): 963–975. doi:10.1016 / j.cell.2016.03.030. PMC 5024353. PMID 27087444.
- ^ A b Ovchinnikov, Sergey; Kamisetty, Hetunandan; Baker, David (1. května 2014). „Robustní a přesná predikce interakcí mezi zbytky a zbytky napříč rozhraními proteinů pomocí evolučních informací“. eLife. 3: e02030. doi:10,7554 / eLife.02030. PMC 4034769. PMID 24842992.
- ^ A b C Feinauer, Christoph; Szurmant, Hendrik; Weigt, Martin; Pagnani, Andrea; Keskin, Ozlem (16. února 2016). „Interproteinová sekvence koevoluce předpovídá známé fyzické interakce v bakteriálních ribozomech a Trp operonu“. PLOS ONE. 11 (2): e0149166. arXiv:1512.05420. Bibcode:2016PLoSO..1149166F. doi:10.1371 / journal.pone.0149166. PMC 4755613. PMID 26882169.
- ^ dos Santos, R.N .; Morcos, F .; Jana, B .; Andricopulo, A.D .; Onuchic, J.N. (4. září 2015). „Dimerní interakce a tvorba komplexu pomocí přímých koevolučních vazeb“. Vědecké zprávy. 5: 13652. doi:10.1038 / srep13652. PMC 4559900. PMID 26338201.
- ^ A b Ferguson, Andrew L .; Mann, Jaclyn K .; Omarjee, Saleha; Ndung'u, Thumbi; Walker, Bruce D .; Chakraborty, Arup K. (březen 2013). „Převod sekvencí HIV do kvantitativních krajin fitness předpovídá virové chyby pro racionální design imunogenů“. Imunita. 38 (3): 606–617. doi:10.1016 / j.immuni.2012.11.022. PMC 3728823. PMID 23521886.
- ^ A b Figliuzzi, Matteo; Jacquier, Hervé; Schug, Alexander; Tenaillon, Oliver; Weigt, Martin (leden 2016). „Koevoluční odvození krajiny a kontextová závislost mutací v beta-laktamáze TEM-1“. Molekulární biologie a evoluce. 33 (1): 268–280. doi:10.1093 / molbev / msv211. PMC 4693977. PMID 26446903.
- ^ Asti, Lorenzo; Uguzzoni, Guido; Marcatili, Paolo; Pagnani, Andrea; Ofran, Yanay (13. dubna 2016). „Modely maximální entropie sekvenovaných imunitních repertoárů předpovídají afinitu antigenu a protilátky“. PLOS výpočetní biologie. 12 (4): e1004870. Bibcode:2016PLSCB..12E4870A. doi:10.1371 / journal.pcbi.1004870. PMC 4830580. PMID 27074145.
- ^ Feinauer, Christoph; Skwark, Marcin J .; Pagnani, Andrea; Aurell, Erik (9. října 2014). „Zlepšení predikce kontaktu ve třech dimenzích“. PLOS výpočetní biologie. 10 (10): e1003847. arXiv:1403.0379. Bibcode:2014PLSCB..10E3847F. doi:10.1371 / journal.pcbi.1003847. PMC 4191875. PMID 25299132.
- ^ A b C Baldassi, Carlo; Zamparo, Marco; Feinauer, Christoph; Procaccini, Andrea; Zecchina, Riccardo; Weigt, Martin; Pagnani, Andrea; Hamacher, Kay (24. března 2014). „Rychlé a přesné mnohorozměrné gaussovské modelování rodin proteinů: předpovídání kontaktů reziduí a partneři interakce s proteiny“. PLOS ONE. 9 (3): e92721. arXiv:1404.1240. Bibcode:2014PLoSO ... 992721B. doi:10.1371 / journal.pone.0092721. PMC 3963956. PMID 24663061.
- ^ Stein, Richard R .; Marks, Debora S .; Sander, Chris; Chen, Shi-Jie (30. července 2015). „Odvození párových interakcí z biologických dat pomocí modelů pravděpodobnosti maximální entropie“. PLOS výpočetní biologie. 11 (7): e1004182. Bibcode:2015PLSCB..11E4182S. doi:10.1371 / journal.pcbi.1004182. PMC 4520494. PMID 26225866.
- ^ Burger, Lukáš; van Nimwegen, Erik; Bourne, Philip E. (1. ledna 2010). „Odštěpení přímo od nepřímé společné evoluce reziduí v přiřazení proteinů“. PLOS výpočetní biologie. 6 (1): e1000633. Bibcode:2010PLSCB ... 6E0633B. doi:10.1371 / journal.pcbi.1000633. PMC 2793430. PMID 20052271.
- ^ Weigt, M .; White, R. A .; Szurmant, H .; Hoch, J. A .; Hwa, T. (30. prosince 2008). "Identifikace přímých kontaktů zbytků v interakci protein-protein předáním zprávy". Sborník Národní akademie věd. 106 (1): 67–72. arXiv:0901.1248. Bibcode:2009PNAS..106 ... 67W. doi:10.1073 / pnas.0805923106. PMC 2629192. PMID 19116270.
- ^ Barton, J. P .; De Leonardis, E .; Coucke, A .; Cocco, S. (21. června 2016). „ACE: adaptivní rozšiřování klastrů pro odvození grafického modelu s maximální entropií“. Bioinformatika. 32 (20): 3089–3097. doi:10.1093 / bioinformatika / btw328. PMID 27329863.
- ^ Göbel, Ulrike; Sander, Chris; Schneider, Reinhard; Valencia, Alfonso (duben 1994). "Korelované mutace a zbytkové kontakty v proteinech". Proteiny: struktura, funkce a genetika. 18 (4): 309–317. doi:10,1002 / prot. 340180402. PMID 8208723.
- ^ Dunn, S.D .; Wahl, L.M .; Gloor, G.B. (5. prosince 2007). „Vzájemné informace bez vlivu fylogeneze nebo entropie dramaticky zlepšují predikci kontaktu se zbytky“. Bioinformatika. 24 (3): 333–340. doi:10.1093 / bioinformatika / btm604. PMID 18057019.
- ^ Schug, A .; Weigt, M .; Onuchic, J. N .; Hwa, T .; Szurmant, H. (17. prosince 2009). „Proteinové komplexy s vysokým rozlišením z integrace genomových informací do molekulární simulace“. Sborník Národní akademie věd. 106 (52): 22124–22129. Bibcode:2009PNAS..10622124S. doi:10.1073 / pnas.0912100106. PMC 2799721. PMID 20018738.
- ^ Jarmolinska, Aleksandra I .; Zhou, Qin; Sulkowska, Joanna I .; Morcos, Faruck (11. ledna 2019). „DCA-MOL: Plugin PyMOL pro analýzu přímých evolučních vazeb“. Journal of Chemical Information and Modeling. 59 (2): 625–629. doi:10,1021 / acs.jcim.8b00690. PMID 30632747.