Grafické modely pro proteinovou strukturu - Graphical models for protein structure

Grafické modely se staly mocnými rámci pro predikce proteinové struktury, interakce protein-protein, a energie zdarma výpočty proteinových struktur. Použití grafického modelu k reprezentaci proteinové struktury umožňuje řešení mnoha problémů, včetně predikce sekundární struktury, interakcí protein-protein, interakce protein-lék a výpočtů volné energie.

Existují dva hlavní přístupy k používání grafických modelů při modelování proteinové struktury. První přístup používá oddělený proměnné představující souřadnice nebo vzepětí struktury proteinu. Proměnné jsou původně všechny spojité hodnoty a pro jejich transformaci na diskrétní hodnoty se obvykle používá proces diskretizace. Druhý přístup používá spojité proměnné pro souřadnice nebo vzepětí.

Diskrétní grafické modely pro proteinovou strukturu

Markovova náhodná pole, známé také jako neorientované grafické modely, jsou běžnými reprezentacemi tohoto problému. Vzhledem k neorientovaný graf G = (PROTIE), sada náhodné proměnné X = (Xproti)proti ∈ PROTI indexováno podle PROTI, tvoří Markovovo náhodné pole vzhledem k G pokud uspokojí párovou vlastnost Markov:

V diskrétním modelu jsou spojité proměnné diskretizovány do sady příznivých diskrétních hodnot. Pokud jsou proměnné volby vzepětí, diskretizace se obvykle provádí mapováním každé hodnoty na odpovídající rotamer konformace.

Modelka

Nechat X = {Xb, Xs} jsou náhodné proměnné představující celou strukturu proteinu. Xb mohou být reprezentovány sadou 3-d souřadnic páteř atomy nebo ekvivalentně posloupností délky vazby a vzepětí. Pravděpodobnost konkrétního konformace X pak lze zapsat jako:

kde představuje všechny parametry použité k popisu tohoto modelu, včetně informací o sekvenci, teploty atd. Páteř je často považována za rigidní se známou konformací a problém se poté transformuje na problém s umístěním postranního řetězce. Struktura grafu je také zakódována . Tato struktura ukazuje, které dvě proměnné jsou podmíněně nezávislé. Jako příklad mohou být úhly postranního řetězce dvou zbytků daleko od sebe nezávislé vzhledem ke všem ostatním úhlům v proteinu. K extrakci této struktury vědci používají prahovou hodnotu vzdálenosti a pouze pár zbytků, které jsou v této prahové hodnotě, jsou považovány za spojené (tj. Mají mezi sebou hranu).

Vzhledem k této reprezentaci je pravděpodobnost konformace konkrétního postranního řetězce Xs vzhledem k páteřní konformaci Xb lze vyjádřit jako

kde C(G) je sada všech klik v G, je potenciální funkce definované přes proměnné a Z je funkce oddílu.

Pro úplnou charakteristiku MRF je nutné definovat potenciální funkci . Pro zjednodušení jsou kliky grafu obvykle omezeny pouze na kliky velikosti 2, což znamená, že potenciální funkce je definována pouze nad dvojicemi proměnných. v Goblinský systém, tyto párové funkce jsou definovány jako

kde je energie interakce mezi stavem rotameru p zbytku a stav rotameru q zbytku a je Boltzmannova konstanta.

Pomocí souboru PDB lze tento model postavit nad proteinovou strukturou. Z tohoto modelu lze vypočítat volnou energii.

Výpočet energie zdarma: šíření víry

Ukázalo se, že volná energie systému se počítá jako

kde E je entalpie systému, T teplota a S, entropie. Nyní, když spojíme pravděpodobnost s každým stavem systému, (p (x) pro každou hodnotu konformace, x), G lze přepsat jako

Výpočet p (x) na diskrétních grafech provádí zobecněné šíření víry algoritmus. Tento algoritmus počítá přiblížení k pravděpodobnostem a není zaručeno, že konverguje k sadě konečných hodnot. V praxi se však ukázalo, že v mnoha případech úspěšně konverguje.

Kontinuální grafické modely pro proteinové struktury

Grafické modely lze stále používat, když jsou proměnné volby spojité. V těchto případech je rozdělení pravděpodobnosti reprezentováno jako a vícerozměrné rozdělení pravděpodobnosti nad spojitými proměnnými. Každá distribuční rodina poté uloží určité vlastnosti grafickému modelu. Vícerozměrná Gaussova distribuce je jednou z nejpohodlnějších distribucí v tomto problému. Jednoduchá forma pravděpodobnosti a přímý vztah s odpovídajícím grafickým modelem z něj činí oblíbenou volbu mezi výzkumníky.

Gaussovské grafické modely proteinových struktur

Gaussovské grafické modely jsou vícerozměrné rozdělení pravděpodobnosti kódující síť závislostí mezi proměnnými. Nechat být soubor proměnné, jako např vzepětí a nechte být hodnotou funkce hustoty pravděpodobnosti na konkrétní hodnotu D. Vícerozměrný Gaussův grafický model definuje tuto pravděpodobnost následovně:

Kde je uzavřená forma pro funkce oddílu. Parametry této distribuce jsou a . je vektor střední hodnoty každé proměnné a , inverzní k kovarianční matice, také známý jako přesná matice. Přesná matice obsahuje párové závislosti mezi proměnnými. Nulová hodnota v znamená, že na základě hodnot ostatních proměnných jsou dvě odpovídající proměnné na sobě nezávislé.

Abychom se naučili strukturu grafu jako vícerozměrný Gaussův grafický model, můžeme použít buď Regularizace L-1 nebo výběr sousedství algoritmy. Tyto algoritmy se současně učí strukturu grafu a sílu hran připojených uzlů. Síla hrany odpovídá potenciální funkci definované na příslušném dvouuzlu klika. K učení používáme tréninkovou sadu řady struktur PDB a .

Jakmile se model naučí, můžeme opakovat stejný krok jako v diskrétním případě, abychom získali funkce hustoty v každém uzlu, a použít analytickou formu k výpočtu volné energie. Tady je funkce oddílu již má uzavřená forma, takže odvození, alespoň pro gaussovské grafické modely je triviální. Pokud analytická forma funkce oddílu není k dispozici, filtrování částic nebo šíření očekávání lze použít k přiblížení Z, a poté proveďte odvození a vypočítejte volnou energii.

Reference

  • Časově proměnné nepřímé grafy, Shuheng Zhou a John D. Lafferty a Larry A. Wasserman, COLT 2008
  • Odhady bezplatné energie struktur všech atomů bílkovin pomocí propagace generalizované víry, Hetunandan Kamisetty Eric P. Xing Christopher J. Langmead, RECOMB 2008

externí odkazy

  • http://www.liebertonline.com/doi/pdf/10.1089/cmb.2007.0131
  • https://web.archive.org/web/20110724225908/http://www.learningtheory.org/colt2008/81-Zhou.pdf
  • Liu Y; Carbonell J; Gopalakrishnan V (2009). "Podmíněné grafické modely pro rozpoznávání strukturních motivů proteinů". J. Comput. Biol. 16 (5): 639–57. doi:10.1089 / cmb.2008.0176. hdl:1721.1/62177. PMID  19432536.
  • Předpovídání proteinových záhybů se strukturálními opakováními pomocí modelu řetězového grafu