Matice polohové hmotnosti - Position weight matrix
A hmotnostní matice polohy (PWM), také známý jako a polohově specifická hmotnostní matice (PSWM) nebo poziční matice bodování (PSSM), je běžně používané zastoupení motivy (vzory) v biologických sekvencích.
PWM jsou často odvozeny ze sady seřazených sekvencí, o nichž se předpokládá, že jsou funkčně příbuzné, a staly se důležitou součástí mnoha softwarových nástrojů pro výpočet výpočetních motivů.
Pozadí
Matici polohy hmotnosti představil americký genetik Gary Stormo a kolegové v roce 1982[1] jako alternativa k konsensuální sekvence. Konsenzuální sekvence byly dříve používány k reprezentaci vzorů v biologických sekvencích, ale měly potíže s predikcí nového výskytu těchto vzorů.[2] První použití PWM bylo v objevu RNA weby, které fungují jako překlad iniciační stránky. The perceptronový algoritmus navrhl Polský Američan matematik Andrzej Ehrenfeucht za účelem vytvoření matice hmotností, které by mohly odlišit skutečná vazebná místa od jiných nefunkčních míst s podobnými sekvencemi. Výcvik perceptronu na obou sadách lokalit vyústil v matici a prahovou hodnotu pro rozlišení mezi těmito dvěma sadami.[1] Použití matice ke skenování nových sekvencí nezahrnutých do tréninkové sady ukázalo, že tato metoda byla citlivější a přesnější než nejlepší konsenzuální sekvence.[2]
Výhody PWM oproti konsensuálním sekvencím způsobily, že PWM jsou populární metodou pro reprezentaci vzorů v biologických sekvencích a základní součástí moderních algoritmů pro objev motivu.[3][4]
Tvorba
Převod sekvence na matici pravděpodobnosti polohy
PWM má jeden řádek pro každý symbol abecedy (4 řádky pro nukleotidy v DNA sekvence nebo 20 řádků pro aminokyseliny v protein sekvence) a jeden sloupec pro každou pozici ve vzoru. V prvním kroku v konstrukci PWM se vytvoří základní frekvenční matice polohy (PFM) spočítáním výskytů každého nukleotidu v každé poloze. Z PFM lze nyní vytvořit matici pravděpodobnosti polohy (PPM) vydělením počtu dřívějších nukleotidů v každé poloze počtem sekvencí, čímž se normalizují hodnoty. Formálně, vzhledem k sadě X z N zarovnané sekvence délky l, prvky PPM M jsou vypočteny:
kde i (1,...,N), j (1,...,l), k je sada symbolů v abecedě a I (a = k) je funkce indikátoru kde I (a = k) je 1, pokud a = k a 0 jinak.
Například vzhledem k následujícím sekvencím DNA:
GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT
Odpovídající PFM je:
Výsledná PPM je tedy:[5]