Vícenásobné EM pro vyvolání motivu - Multiple EM for Motif Elicitation - Wikipedia
![]() | Tento článek může vyžadovat vyčištění setkat se s Wikipedií standardy kvality.Říjen 2009) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Vícenásobné výrazové motivy pro vyvolání motivu (MEME) je nástroj pro objevování motivů ve skupině příbuzných DNA nebo protein sekvence.[1]
A motiv je sekvenční vzorec, který se opakovaně vyskytuje ve skupině příbuzných proteinových nebo DNA sekvencí a je často spojován s nějakou biologickou funkcí. MEME představuje motivy jako matice pravděpodobnosti písmen závislé na poloze které popisují pravděpodobnost každého možného písmene na každé pozici ve vzoru. Jednotlivé motivy MEME neobsahují mezery. Vzory s mezerami s proměnnou délkou jsou rozděleny pomocí MEME na dva nebo více samostatných motivů.
MEME bere jako vstup skupinu DNA nebo proteinových sekvencí (tréninkovou sadu) a vydává tolik motivů, kolik je požadováno. Využívá techniky statistického modelování k automatickému výběru nejlepší šířky, počtu výskytů a popisu každého motivu.
MEME je první ze sbírky nástrojů pro analýzu motivů zvaných MEME suite.
Definice
Algoritmus MEME lze chápat ze dvou různých pohledů. Z biologického hlediska MEME identifikuje a charakterizuje sdílené motivy v sadě nezarovnaných sekvencí. Z hlediska počítačové vědy MEME najde sadu nepřekrývajících se přibližně odpovídajících podřetězců, kterým byla dána počáteční sada řetězců.
Použití
S MEME lze najít podobné biologické funkce a struktury v různých sekvencích. Je třeba vzít v úvahu, že variabilita sekvencí může být významná a že motivy jsou někdy velmi malé. Je také užitečné vzít v úvahu, že vazebná místa pro proteiny jsou velmi specifická. Díky tomu je snazší omezit experimenty s mokrými laboratořemi (snižuje náklady a čas). Abychom mohli lépe objevit motivy relevantní z biologického hlediska, musíme pečlivě zvolit:
- Nejlepší šířka motivů.
- Počet výskytů v každé sekvenci.
- Složení každého motivu.
Komponenty algoritmu
Algoritmus používá několik typů dobře známých funkcí:
- Maximalizace očekávání (EM).
- Heuristika založená na EM pro výběr výchozího bodu EM.
- Maximální pravděpodobnost na základě poměru (na základě LRT). Heuristika pro určení nejlepšího počtu parametrů bez modelu.
- Multi-start pro vyhledávání přes možné šířky motivů.
- Chamtivé hledání pro nalezení více motivů.
Člověk však často neví, kde je výchozí pozice. Existuje několik možností:
- Přesně jeden motiv na sekvenci.
- Jeden nebo nulový motiv na sekvenci.
- Libovolný počet motivů na sekvenci.
Příklad
V následujícím příkladu má jeden váhovou matici 3 různých sekvencí bez mezer.
Sekvence 1: | C G G G T A A G T |
---|---|
Sekvence 2: | A A G G T A T G C |
Sekvence 3: | C A G G T G A G G |
Nyní se spočítá počet nukleotidů obsažených ve všech sekvencích:
A: | 1 2 0 0 0 2 2 0 0 | 7 |
---|---|---|
C: | 2 0 0 0 0 0 0 0 1 | 3 |
G: | 0 1 3 3 0 1 0 3 1 | 12 |
T: | 0 0 0 0 3 0 1 0 1 | 5 |
Nyní je třeba shrnout celkem: 7 + 3 + 12 + 5 = 27; to nám dává „dělicí faktor“ pro každou bázi nebo ekvivalentní pravděpodobnost každého nukleotidu.
A: | 7/27 ≈ 0.26 |
C: | 3/27 ≈ 0.11 |
G: | 12/27 ≈ 0.44 |
T: | 5/27 ≈ 0.19 |
Nyní je možné váhovou matici (WM) „předělat“ vydělením celkovým počtem sekvencí (v našem případě 3):
A: | 0.33 | 0.66 | 0.00 | 0.00 | 0.00 | 0.66 | 0.66 | 0.00 | 0.00 |
---|---|---|---|---|---|---|---|---|---|
C: | 0.66 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.33 |
G: | 0.00 | 0.33 | 1.00 | 1.00 | 0.00 | 0.33 | 0.00 | 1.00 | 0.33 |
T: | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 0.00 | 0.33 | 0.00 | 0.33 |
Dále jeden rozdělí položky WM na pozici s pravděpodobností základny .
A: | 1.29 | 2.57 | 0.00 | 0.00 | 0.00 | 2.57 | 2.57 | 0.00 | 0.00 |
---|---|---|---|---|---|---|---|---|---|
C: | 6.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 3.00 |
G: | 0.00 | 0.75 | 2.25 | 2.25 | 0.00 | 0.75 | 0.00 | 2.25 | 0.75 |
T: | 0.00 | 0.00 | 0.00 | 0.00 | 5.40 | 0.00 | 1.80 | 0.00 | 1.80 |
Obecně by se pravděpodobnosti nyní znásobily. V našem případě by měl jeden pro každého nulu. Z tohoto důvodu definujeme a vezměte logaritmus (základ 10):
A: | 0.11 | 0.41 | −10 | −10 | −10 | 0.41 | 0.41 | −10 | −10 |
---|---|---|---|---|---|---|---|---|---|
C: | 0.78 | −10 | −10 | −10 | −10 | −10 | −10 | −10 | 0.48 |
G: | −10 | −0.12 | 0.35 | 0.35 | −10 | −0.12 | −10 | 0.35 | −0.12 |
T: | −10 | −10 | −10 | −10 | 0.73 | −10 | 0.26 | −10 | 0.26 |
Toto je naše nová váhová matice (WM). Jeden je připraven použít příklad promotorové sekvence k určení jejího skóre. K tomu je třeba přidat čísla nalezená na pozici logaritmického WM. Například pokud vezmeme AGGCTGATC promotor:
- 0.11 − 0.12 + 0.35 − 10 + 0.73 − 0.12 + 0.41 − 10 + 0.48 = −18.17
To se pak vydělí počtem záznamů (v našem případě 9), čímž se získá skóre −2,02.
Nedostatky
Algoritmy MEME mají několik nevýhod, včetně:
- Není zahrnut příspěvek na mezery / náhrady / vložení.[Citace je zapotřebí ]
- Schopnost testovat významnost často není zahrnuta.[Citace je zapotřebí ]
- Vymazaná vstupní data při každém objevení nového motivu (algoritmus předpokládá, že nový motiv je správný).[Citace je zapotřebí ]
- Omezení na dvousložkový případ.[Citace je zapotřebí ]
- Časová složitost je velká, škálování O (n ^ 2).[Citace je zapotřebí ] Rychlejší implementace MEME, známá jako EXTREME, využívá online EM algoritmus k významnému urychlení objevování motivů.[2]
- Velmi pesimistické ohledně zarovnání (což by mohlo vést ke zmeškaným signálům).[Citace je zapotřebí ]
Viz také
Reference
- ^ Bailey TL, Williams N, Misleh C, Li WW (2006). „MEME: objevování a analýza motivů sekvencí DNA a proteinů“. Nucleic Acids Res. 34 (Problém s webovým serverem): W369–373. doi:10.1093 / nar / gkl198. PMC 1538909. PMID 16845028.
- ^ Quang, Daniel; Xie, Xiaohui (únor 2014). „EXTREME: online EM algoritmus pro objevování motivů“. Bioinformatika. 30 (12): 1667–1673. doi:10.1093 / bioinformatika / btu093. PMC 4058924. PMID 24532725. Citováno 19. srpna 2014.
externí odkazy
- MEME Suite - Nástroje na sekvenční analýzu založené na motivech
- GPU akcelerovaná verze MEME
- EXTRÉMNÍ - Online EM implementace modelu MEME pro rychlé objevování motivů ve velkých datových stopách ChIP-Seq a DNase-Seq