Matice polohové hmotnosti - Position weight matrix

PWM jsou často graficky znázorněny jako sekvenční loga.

A hmotnostní matice polohy (PWM), také známý jako a polohově specifická hmotnostní matice (PSWM) nebo poziční matice bodování (PSSM), je běžně používané zastoupení motivy (vzory) v biologických sekvencích.

PWM jsou často odvozeny ze sady seřazených sekvencí, o nichž se předpokládá, že jsou funkčně příbuzné, a staly se důležitou součástí mnoha softwarových nástrojů pro výpočet výpočetních motivů.

Pozadí

PWM byly zavedeny americkým genetikem Gary Stormo.

Matici polohy hmotnosti představil americký genetik Gary Stormo a kolegové v roce 1982[1] jako alternativa k konsensuální sekvence. Konsenzuální sekvence byly dříve používány k reprezentaci vzorů v biologických sekvencích, ale měly potíže s predikcí nového výskytu těchto vzorů.[2] První použití PWM bylo v objevu RNA weby, které fungují jako překlad iniciační stránky. The perceptronový algoritmus navrhl Polský Američan matematik Andrzej Ehrenfeucht za účelem vytvoření matice hmotností, které by mohly odlišit skutečná vazebná místa od jiných nefunkčních míst s podobnými sekvencemi. Výcvik perceptronu na obou sadách lokalit vyústil v matici a prahovou hodnotu pro rozlišení mezi těmito dvěma sadami.[1] Použití matice ke skenování nových sekvencí nezahrnutých do tréninkové sady ukázalo, že tato metoda byla citlivější a přesnější než nejlepší konsenzuální sekvence.[2]

Výhody PWM oproti konsensuálním sekvencím způsobily, že PWM jsou populární metodou pro reprezentaci vzorů v biologických sekvencích a základní součástí moderních algoritmů pro objev motivu.[3][4]

Tvorba

Převod sekvence na matici pravděpodobnosti polohy

PWM má jeden řádek pro každý symbol abecedy (4 řádky pro nukleotidy v DNA sekvence nebo 20 řádků pro aminokyseliny v protein sekvence) a jeden sloupec pro každou pozici ve vzoru. V prvním kroku v konstrukci PWM se vytvoří základní frekvenční matice polohy (PFM) spočítáním výskytů každého nukleotidu v každé poloze. Z PFM lze nyní vytvořit matici pravděpodobnosti polohy (PPM) vydělením počtu dřívějších nukleotidů v každé poloze počtem sekvencí, čímž se normalizují hodnoty. Formálně, vzhledem k sadě X z N zarovnané sekvence délky l, prvky PPM M jsou vypočteny:

kde i (1,...,N), j (1,...,l), k je sada symbolů v abecedě a I (a = k) je funkce indikátoru kde I (a = k) je 1, pokud a = k a 0 jinak.

Například vzhledem k následujícím sekvencím DNA:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

Odpovídající PFM je:

Výsledná PPM je tedy:[5]

Předpokládají PPM i PWM statistická nezávislost mezi pozicemi ve vzoru, protože pravděpodobnosti pro každou pozici se počítají nezávisle na ostatních pozicích. Z výše uvedené definice vyplývá, že součet hodnot pro konkrétní pozici (tj. Součet nad všemi symboly) je 1. Každý sloupec lze tedy považovat za nezávislý multinomiální distribuce. To usnadňuje výpočet pravděpodobnosti posloupnosti dané PPM vynásobením příslušných pravděpodobností na každé pozici. Například pravděpodobnost posloupnosti S = GAGGTAAAC vzhledem k výše uvedenému PPM M lze vypočítat:

Pseudoúčty (nebo Laplaceovy odhady ) se často používají při výpočtu PPM, pokud jsou založeny na malé datové sadě, aby se zabránilo maticovým položkám s hodnotou 0.[6] To odpovídá vynásobení každého sloupce PPM a Dirichletova distribuce a umožňuje vypočítat pravděpodobnost pro nové sekvence (tj. sekvence, které nebyly součástí původního datového souboru). Ve výše uvedeném příkladu bez pseudoúčtů jakákoli sekvence, která neměla a G na 4. pozici nebo a T na 5. pozici by měla pravděpodobnost 0, bez ohledu na ostatní pozice.

Převod matice pravděpodobnosti polohy na matici hmotnosti polohy

Nejčastěji se prvky v PWM počítají jako logaritmy. To znamená, že prvky PPM jsou transformovány pomocí modelu pozadí aby:

popisuje jak prvek v PWM (vlevo), Nejjednodušší model pozadí předpokládá, že každé písmeno se v datové sadě objevuje stejně často. To znamená hodnotu pro všechny symboly v abecedě (0,25 pro nukleotidy a 0,05 pro aminokyseliny). Uplatnění této transformace na PPM M shora (bez přidaných pseudo účtů) dává:

The položky v matici objasňují výhodu přidávání pseudoúčtů, zejména při konstrukci pomocí malých datových sad M. Model pozadí nemusí mít stejné hodnoty pro každý symbol: například při studiu organismů s vysokou Obsah GC, hodnoty pro C a G může být zvýšena s odpovídajícím poklesem pro A a T hodnoty.

Když se prvky PWM počítají pomocí log pravděpodobností, skóre sekvence lze vypočítat přidáním (spíše než vynásobením) příslušných hodnot na každé pozici v PWM. Skóre sekvence udává, jak odlišná je sekvence od náhodné sekvence. Skóre je 0, pokud má sekvence stejnou pravděpodobnost, že bude funkčním místem a že bude náhodným místem. Skóre je větší než 0, pokud je pravděpodobnější, že bude funkčním místem než náhodné místo, a menší než 0, pokud je to pravděpodobnější, že bude náhodným místem, než funkční místo.[5] Skóre sekvence může být také interpretováno ve fyzickém rámci jako vazebná energie pro tuto sekvenci.

Informační obsah

The informační obsah (IC) PWM je někdy zajímavý, protože říká něco o tom, jak odlišný je daný PWM od a rovnoměrné rozdělení.

The vlastní informace pozorování konkrétního symbolu na určité pozici motivu je:

Očekávaná (průměrná) vlastní informace o konkrétním prvku v PWM je pak:

Nakonec je IC PWM součtem očekávané sebeinformace každého prvku:

Často je užitečnější vypočítat obsah informací s četností písmen pozadí sekvencí, které studujete, než za předpokladu stejné pravděpodobnosti každého písmene (např. Obsah GC DNA DNA termofilní bakterie se pohybují od 65,3 do 70,8,[7] motiv ATAT by tedy obsahoval mnohem více informací než motiv CCGG). Rovnice pro informační obsah se tak stává

kde je frekvence pozadí pro písmeno . To odpovídá Kullback – Leiblerova divergence nebo relativní entropie. Ukázalo se však, že při použití PSSM k vyhledávání genomových sekvencí (viz níže) může tato jednotná korekce vést k nadhodnocení důležitosti různých bází v motivu, kvůli nerovnoměrné distribuci n-merů ve skutečných genomech, což vede k významně většímu počtu falešných poplachů.[8]

Použití

Existují různé algoritmy pro skenování sekvenčních zásahů PWM. Jedním příkladem je MATCH algoritmus[9] který byl implementován v ModuleMaster.[10] Sofistikovanější algoritmy pro rychlé prohledávání databáze pomocí nukleotidů i aminokyselinových PWM / PSSM jsou implementovány do softwaru possumsearch.[11]

Reference

  1. ^ A b Stormo, Gary D .; Schneider, Thomas D .; Zlato, Larry; Ehrenfeucht, Andrzej (1982). "Použití algoritmu" Perceptron "k rozlišení translačních iniciačních míst v systému Windows E-coli". Výzkum nukleových kyselin. 10 (9): 2997–3011. doi:10.1093 / nar / 10.9.2997. PMC  320670. PMID  7048259.
  2. ^ A b Stormo, G. D. (1. ledna 2000). „DNA vázací místa: reprezentace a objev“. Bioinformatika. 16 (1): 16–23. doi:10.1093 / bioinformatika / 16.1.16. PMID  10812473.
  3. ^ Sinha, S. (27. července 2006). „Při počítání pozičních váhových maticových shod v sekvenci s aplikací na nalezení diskriminačního motivu. Bioinformatika. 22 (14): e454 – e463. doi:10.1093 / bioinformatika / btl227. PMID  16873507.
  4. ^ Xia, Xuhua (2012). „Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction“. Scientifica. 2012: 1–15. doi:10.6064/2012/917540. PMC  3820676. PMID  24278755.
  5. ^ A b Guigo, Roderic. „Úvod do bodovacích matic specifických pro danou pozici“. bioinformatica.upf.edu. Citováno 12. listopadu 2013.
  6. ^ Nishida, K .; Frith, M. C .; Nakai, K. (23. prosince 2008). „Pseudoúčty pro vazebná místa pro transkripční faktor“. Výzkum nukleových kyselin. 37 (3): 939–944. doi:10.1093 / nar / gkn1019. PMC  2647310. PMID  19106141.
  7. ^ Aleksandrushkina NI, Egorova LA (1978). "Nukleotidový makeup DNA termofilních bakterií rodu Thermus". Mikrobiologie. 47 (2): 250–2. PMID  661633.
  8. ^ Erill I, O'Neill MC (2009). „Reexamination of information theory-based methods for DNA-binding site identification“. BMC bioinformatika. 10: 57. doi:10.1186/1471-2105-10-57. PMC  2680408. PMID  19210776.
  9. ^ Kel AE a kol. (2003). „MATCHTM: nástroj pro vyhledávání vazebných míst transkripčních faktorů v sekvencích DNA“. Výzkum nukleových kyselin. 31 (13): 3576–3579. doi:10,1093 / nar / gkg585. PMC  169193. PMID  12824369.
  10. ^ Wrzodek, Clemens; Schröder, Adrian; Dräger, Andreas; Wanke, Dierk; Berendzen, Kenneth W .; Kronfeld, Marcel; Harter, Klaus; Zell, Andreas (9. října 2009). "ModuleMaster: Nový nástroj k dešifrování transkripčních regulačních sítí". Biosystémy. 99 (1): 79–81. doi:10.1016 / j.biosystems.2009.09.005. ISSN  0303-2647. PMID  19819296.
  11. ^ Beckstette, M .; et al. (2006). "Rychlé algoritmy založené na indexu a software pro porovnávání bodovacích matic s konkrétními pozicemi". BMC bioinformatika. 7: 389. doi:10.1186/1471-2105-7-389. PMC  1635428. PMID  16930469.

externí odkazy

  • 3PFDB - databáze nejlepších představitelů profilů PSSM (BRP) rodin bílkovin vytvořená pomocí nového přístupu k dolování dat.
  • UGENE - design matic PSS, integrované rozhraní pro JASPAR, UniPROBE a databáze SITECON.