Statistický potenciál - Statistical potential

v predikce proteinové struktury, a statistický potenciál nebo znalostní potenciál je bodovací funkce odvozeno z analýzy známých proteinové struktury v Proteinová datová banka (PDB).

Původní metodou k získání těchto potenciálů je kvazi-chemická aproximacekvůli Miyazawovi a Jerniganovi.[1] To bylo později následováno potenciál střední síly (statistický PMF[Poznámka 1]), vyvinutý společností Sippl.[2] Přestože získané výsledky jsou často považovány za aproximace energie zdarma —Tak označovaný jako pseudoenergie—Tato fyzická interpretace je nesprávná.[3][4] V mnoha případech se však používají s různým úspěchem, protože často korelují se skutečnými Gibbsova volná energie rozdíly.[5]

Přehled

Mezi možné funkce, kterým lze přiřadit pseudoenergii, patří:

Klasická aplikace je však založena na párování aminokyselinové kontakty nebo vzdálenosti, čímž vznikají statistické údaje interatomové potenciály. U párových aminokyselinových kontaktů je statistický potenciál formulován jako interakční matice který přiřadí váhu nebo energetická hodnota každému možnému páru standardní aminokyseliny. Energie konkrétního strukturního modelu je pak kombinovaná energie všech párových kontaktů (definovaných jako dvě aminokyseliny v určité vzdálenosti od sebe) ve struktuře. Energie se stanoví pomocí statistik o kontaktech aminokyselin v databázi známých proteinových struktur (získaných z PDB ).

Dějiny

Počáteční vývoj

Mnoho učebnic představuje statistické PMF, jak navrhuje Sippl [2] jako jednoduchý důsledek Boltzmannova distribuce, jak se aplikuje na párové vzdálenosti mezi aminokyselinami. To je nesprávné, ale užitečný začátek pro zavedení konstrukce potenciálu v praxi. Boltzmannova distribuce aplikovaná na konkrétní pár aminokyselin je dána vztahem:

kde je vzdálenost, je Boltzmannova konstanta, je teplota a je funkce oddílu, s

Množství je volná energie přiřazená párovému systému. Výsledkem jednoduchého přeskupení je inverzní Boltzmannův vzorec, která vyjadřuje volnou energii jako funkce :

Pro konstrukci PMF se zavádí tzv odkazStát s odpovídající distribucí a funkce oddílu, a vypočítá následující rozdíl volné energie:

Referenční stav je obvykle výsledkem hypotetického systému, ve kterém chybí specifické interakce mezi aminokyselinami. Druhý termín zahrnuje a lze ignorovat, protože se jedná o konstantu.

V praxi, se odhaduje z databáze známých proteinových struktur, zatímco obvykle vyplývá z výpočtu nebo simulací. Například, může být podmíněná pravděpodobnost nalezení atomy valinu a serinu při dané vzdálenosti od sebe navzájem, což vede k rozdílu volné energie. Celkový rozdíl volné energie proteinu,, pak se prohlašuje za součet všech párových volných energií:

kde součet běží přes všechny páry aminokyselin (s ) a je jejich odpovídající vzdálenost. V mnoha studiích nezávisí na aminokyselinová sekvence.[6]

Koncepční problémy

Intuitivně je jasné, že nízká hodnota pro naznačuje, že množina vzdáleností ve struktuře je pravděpodobnější v proteinech než v referenčním stavu. Fyzický význam těchto statistických PMF je však od jejich zavedení široce sporný.[3][4][7][8] Hlavní problémy jsou:

  1. Špatná interpretace tohoto „potenciálu“ jako pravdivé, fyzicky platné potenciál střední síly;
  2. Povaha tzv referenční stav a jeho optimální formulace;
  3. Platnost zobecnění nad párové vzdálenosti.

Kontroverzní analogie

V reakci na problém týkající se fyzické platnosti se Sippl pokusil o první ospravedlnění statistických PMF.[9] Bylo založeno na analogii se statistickou fyzikou kapalin. U kapalin souvisí potenciál střední síly s radiální distribuční funkce , který je dán:[10]

kde a jsou příslušné pravděpodobnosti odtržení dvou částic na dálku od sebe v kapalině a v referenčním stavu. U kapalin je jasně definován referenční stav; odpovídá ideálnímu plynu, který se skládá z neinteragujících částic. Dvoučásticový potenciál střední síly je spojen s podle:

Podle reverzibilní pracovní věty je dvoučásticový potenciál střední síly je reverzibilní práce vyžadovaná pro vhánění dvou částic do kapaliny z nekonečné separace na dálku od sebe navzájem.[10]

Sippl ospravedlnil použití statistických PMF - několik let poté, co je zavedl pro použití v predikci struktury proteinů - aplikací analogie s reverzibilní pracovní teorémem pro kapaliny. Pro kapaliny, lze experimentálně měřit pomocí malý úhel rentgenového rozptylu; pro bílkoviny, se získá ze sady známých proteinových struktur, jak je vysvětleno v předchozí části. Nicméně, jak Ben-Naim napsal v publikaci na toto téma:[4]

[...] veličiny, označované jako „statistické potenciály“, „strukturované potenciály“ nebo „párové potenciály střední síly“, odvozené z proteinové banky dat (PDB), nejsou ani „potenciály“, ani „potenciály průměrné síly“ „v běžném slova smyslu, jak se používá v literatuře o kapalinách a řešeních.

Tato analogie navíc neřeší otázku, jak určit vhodný referenční stav pro bílkoviny.

Strojové učení

V polovině 2000s začali autoři kombinovat více statistických potenciálů odvozených z různých strukturálních rysů do složené skóre.[11] Za tímto účelem použili strojové učení techniky, jako např podporovat vektorové stroje (SVM). Pravděpodobnostní neuronové sítě (PNN) byly také použity pro výcvik statisticky závislého statistického potenciálu závislého na vzdálenosti.[12] V roce 2016 DeepMind začala platit výzkumná laboratoř umělé inteligence hluboké učení techniky rozvoje torzního a vzdálenosti závislého statistického potenciálu.[13] Výsledná metoda s názvem AlphaFold, vyhrál 13 Kritické hodnocení technik pro predikci struktury proteinů (CASP) správnou předpovědí nejpřesnější struktury pro 25 ze 43 modelování zdarma domén.

Vysvětlení

Bayesovská pravděpodobnost

Pekař a spolupracovníky [14] oprávněné statistické PMF z aayesovského hlediska a tyto poznatky využily při konstrukci hrubozrnných ROSETTA energetická funkce. Podle Bayesovská pravděpodobnost počet, podmíněná pravděpodobnost struktury , vzhledem k aminokyselinové sekvenci , lze psát jako:

je úměrná součinu produktu pravděpodobnost krát předchozí. Za předpokladu, že pravděpodobnost lze aproximovat jako produkt párových pravděpodobností, a použití Bayesova věta, pravděpodobnost lze zapsat jako:

kde produkt běží přes všechny páry aminokyselin (s), a je vzdálenost mezi aminokyselinami a Je zřejmé, že zápor logaritmu výrazu má stejnou funkční formu jako klasické PMF s párovými vzdálenostmi, přičemž jmenovatel hraje roli tamního stavu. Toto vysvětlení má dva nedostatky: opírá se o nepodložený předpoklad, že pravděpodobnost může být vyjádřena jako produkt párových pravděpodobností, a je čistě kvalitativní.

Kinematika pravděpodobnosti

Hamelryck a spolupracovníci [5] později dal kvantitativní vysvětlení statistických potenciálů, podle nichž aproximují formu pravděpodobnostního uvažování kvůli Richard Jeffrey a pojmenovaný kinematika pravděpodobnosti. Tato varianta bayesovského myšlení (někdy nazývaná „Jeffreyova kondice ") umožňuje aktualizace předchozí distribuce založená na nových informacích o pravděpodobnostech prvků oddílu na podporu předchozího. Z tohoto pohledu (i) není nutné předpokládat, že databáze proteinových struktur - sloužící k budování potenciálů - sleduje Boltzmannovu distribuci, (ii) statistické potenciály snadno zobecňují mimo párové rozdíly a (iii) referenční poměr je dána předchozí distribucí.

Referenční poměr

Metoda referenčního poměru. je rozdělení pravděpodobnosti, které popisuje strukturu proteinů v lokálním měřítku délky (vpravo). Typicky, je ztělesněn v knihovně fragmentů, ale další možnosti jsou energetická funkce nebo a grafický model. K získání úplného popisu struktury proteinu je také potřeba rozdělení pravděpodobnosti který popisuje nelokální aspekty, jako je vodíková vazba. se typicky získává ze sady vyřešených proteinových struktur z PDB (vlevo, odjet). Aby bylo možné kombinovat s smysluplným způsobem je třeba vyjádřit referenční poměr (dole), který přijímá signál s ohledem na v úvahu.

Výrazy, které se podobají statistickým PMF, přirozeně vyplývají z aplikace teorie pravděpodobnosti k řešení zásadního problému, který vyvstává v predikci proteinové struktury: jak zlepšit nedokonalé rozdělení pravděpodobnosti přes první proměnnou pomocí rozdělení pravděpodobnosti přes druhou proměnnou , s .[5] Typicky, a jsou jemné a hrubozrnné proměnné. Například, může ovlivnit místní strukturu proteinu se může týkat párových vzdáleností mezi aminokyselinami. V tom případě, může to být například vektor vzepjatých úhlů, který určuje všechny polohy atomů (za předpokladu ideálních délek vazeb a úhlů). Aby bylo možné kombinovat obě rozdělení, tak, že místní struktura bude rozdělena podle , zatímco párové vzdálenosti budou rozděleny podle , je potřeba následující výraz:

kde je distribuce u konce předpokládá . Poměr ve výrazu odpovídá PMF. Typicky, je přinesen vzorkováním (obvykle z knihovny fragmentů) a není explicitně vyhodnocován; poměr, který je naopak výslovně vyhodnocen, odpovídá Sipplovu PMF. Toto vysvětlení je kvantitativní a umožňuje zobecnění statistických PMF z párových vzdáleností na libovolné hrubozrnné proměnné. Poskytuje také přísnou definici referenčního stavu, což implikuje . Konvenční aplikace statistických PMF s párovou vzdáleností obvykle postrádají dvě nezbytné funkce, aby byly zcela přísné: použití správného rozdělení pravděpodobnosti na párové vzdálenosti v proteinech a uznání, že referenční stav je důsledně definován .

Aplikace

Statistické potenciály se používají jako energetické funkce při posuzování souboru strukturálních modelů vyrobených homologické modelování nebo navlékání bílkovin. Ukázalo se, že mnoho různě parametrizovaných statistických potenciálů úspěšně identifikuje strukturu nativního stavu ze souboru vějička nebo nepůvodní struktury.[15] Statistické potenciály se nepoužívají pouze pro predikce proteinové struktury, ale také pro modelování skládání bílkovin cesta.[16][17]

Viz také

Poznámky

  1. ^ Nesmí být zaměňována s aktuální PMF.

Reference

  1. ^ Miyazawa S, Jernigan R (1985). "Odhad účinných mezizbytkových kontaktních energií z proteinových krystalových struktur: kvazi-chemická aproximace". Makromolekuly. 18 (3): 534–552. CiteSeerX  10.1.1.206.715. doi:10.1021 / ma00145a039.
  2. ^ A b Sippl MJ (1990). „Výpočet konformačních souborů z potenciálů střední síly. Přístup ke znalostní predikci lokálních struktur v globulárních proteinech“. J Mol Biol. 213 (4): 859–883. doi:10.1016 / s0022-2836 (05) 80269-4. PMID  2359125.
  3. ^ A b Thomas PD, Dill KA (1996). „Statistické potenciály extrahované z proteinových struktur: jak přesné jsou?“. J Mol Biol. 257 (2): 457–469. doi:10.1006 / jmbi.1996.0175. PMID  8609636.
  4. ^ A b C Ben-Naim A (1997). „Statistické potenciály extrahované z proteinových struktur: Jsou to významné potenciály?“. J Chem Phys. 107 (9): 3698–3706. doi:10.1063/1.474725.
  5. ^ A b C Hamelryck T, Borg M, Paluszewski M a kol. (2010). Flower DR (ed.). „Potenciály střední síly pro predikci proteinové struktury jsou obhájeny, formalizovány a zobecněny“. PLOS ONE. 5 (11): e13714. doi:10.1371 / journal.pone.0013714. PMC  2978081. PMID  21103041.
  6. ^ Rooman M, Wodak S (1995). "Jsou potenciály odvozené z databáze platné pro hodnocení skládání dopředného i obráceného proteinu?". Protein Eng. 8 (9): 849–858. doi:10.1093 / protein / 8.9.849. PMID  8746722.
  7. ^ Koppensteiner WA, Sippl MJ (1998). „Znalostní potenciály - zpět ke kořenům“. Biochemistry Mosc. 63 (3): 247–252. PMID  9526121.
  8. ^ Shortle D (2003). „Sklony, pravděpodobnosti a Boltzmannova hypotéza“. Protein Sci. 12 (6): 1298–1302. doi:10.1110 / ps.0306903. PMC  2323900. PMID  12761401.
  9. ^ Sippl MJ, Ortner M, Jaritz M, Lackner P, Flockner H (1996). „Helmholtzovy volné energie interakcí atomových párů v proteinech“. Fold Des. 1 (4): 289–98. doi:10.1016 / s1359-0278 (96) 00042-9. PMID  9079391.
  10. ^ A b Chandler D (1987) Úvod do moderní statistické mechaniky. New York: Oxford University Press, USA.
  11. ^ Eramian, David; Shen, Min-yi; Devos, Damien; Melo, Francisco; Sali, Andrej; Marti-Renom, Marc (2006). „Složené skóre pro predikci chyb v modelech proteinové struktury“. Věda o bílkovinách. 15 (7): 1653–1666. doi:10.1110 / ps.062095806. PMC  2242555. PMID  16751606.
  12. ^ Zhao, Feng; Xu, Jinbo (2012). „Poziční statistický potenciál závislý na vzdálenosti pro strukturu bílkovin a funkční studii“. Struktura. 20 (6): 1118–1126. doi:10.1016 / j.str.2012.04.003. PMC  3372698. PMID  22608968.
  13. ^ Senior AW, Evans R, Jumper J a kol. (2020). "Vylepšená predikce struktury proteinů s využitím potenciálů z hlubokého učení". Příroda. 577 (7792): 706–710. doi:10.1038 / s41586-019-1923-7. PMID  31942072.
  14. ^ Simons KT, Kooperberg C, Huang E, Baker D (1997). "Sestavení proteinových terciárních struktur z fragmentů s podobnými lokálními sekvencemi pomocí simulovaných žíhacích a Bayesovských skórovacích funkcí". J Mol Biol. 268 (1): 209–225. CiteSeerX  10.1.1.579.5647. doi:10.1006 / jmbi.1997.0959. PMID  9149153.
  15. ^ Lam SD, Das S, Sillitoe I, Orengo C (2017). "Přehled srovnávacího modelování a zdrojů věnovaných rozsáhlému modelování sekvencí genomu". Acta Crystallogr D Struct Biol. 73 (8): 628–640. doi:10.1107 / S2059798317008920. PMC  5571743. PMID  28777078.CS1 maint: více jmen: seznam autorů (odkaz)
  16. ^ Kmiecik S a Kolinski A (2007). „Charakterizace drah skládání bílkovin pomocí modelování v omezeném prostoru“. Proc. Natl. Acad. Sci. USA. 104 (30): 12330–12335. doi:10.1073 / pnas.0702265104. PMC  1941469. PMID  17636132.
  17. ^ Adhikari AN, Freed KF, Sosnick TR (2012). „De novo predikce dráhy a struktury skládání proteinů pomocí principu postupné stabilizace“. Proc. Natl. Acad. Sci. USA. 109 (43): 17442–17447. doi:10.1073 / pnas.1209000109. PMC  3491489. PMID  23045636.