Bioinformatický objev nekódujících RNA - Bioinformatics discovery of non-coding RNAs

Nekódující RNA byly objeveny pomocí experimentálních i bioinformatické přístupy. Bioinformatické přístupy lze rozdělit do tří hlavních kategorií. První zahrnuje hledání homologie, i když tyto techniky nejsou podle definice schopny najít nové třídy ncRNA. Druhá kategorie zahrnuje algoritmy navržen tak, aby objevil konkrétní typy ncRNA, které mají podobné vlastnosti. A konečně, některé metody zjišťování jsou založeny na velmi obecných vlastnostech RNA, a jsou tak schopni objevovat zcela nové druhy ncRNA.

Objev podle homologie

Hledání homologie se týká procesu hledání a sekvenční databáze pro RNA, které jsou podobné již známým sekvencím RNA. Lze použít jakýkoli algoritmus, který je navržen pro homologické vyhledávání sekvencí nukleových kyselin, např. VÝBUCH.[1] Takové algoritmy však obvykle nejsou tak citlivé nebo přesné jako algoritmy speciálně navržené pro RNA.

Zvláštní důležitost pro RNA má její zachování a sekundární struktura, které lze modelovat, aby se dosáhlo další přesnosti ve vyhledávání. Například, Kovarianční modely[2] lze zobrazit jako rozšíření souboru profilový skrytý Markovův model to také odráží konzervovanou sekundární strukturu. Modely Covariance jsou implementovány v softwarovém balíčku Infernal.[3]

Objev specifických typů ncRNA

Některé typy RNA mají sdílené vlastnosti, které mohou algoritmy využívat. Například tRNAscan-SE[4] se specializuje na hledání tRNA. Srdcem tohoto programu je vyhledávání homologie tRNA založené na kovariančních modelech, ale k urychlení vyhledávání se používají jiné vyhledávací programy specifické pro tRNA.

Vlastnosti snoRNA umožnily vývoj programů pro detekci nových příkladů snoRNA, včetně těch, které mohou jen vzdáleně souviset s dříve známými příklady. Mezi počítačové programy implementující tyto přístupy patří snoscan[5] a snoReport.[6]

Podobně bylo pro detekci vyvinuto několik algoritmů mikroRNA. Mezi příklady patří miRNAFold[7] a miRNAminer[8]

Objev podle obecných vlastností

Některé vlastnosti sdílí několik nesouvisejících tříd ncRNA a na tyto vlastnosti lze cílit, aby se objevily nové třídy. Mezi nimi je především zachování sekundární struktury RNA. Pro měření zachování sekundární struktury je nutné nějak najít homologní sekvence, které by mohly vykazovat společnou strukturu. Strategie k tomu zahrnovaly použití BLAST mezi dvěma sekvencemi [9] nebo více sekvencí,[10] využívané synteny prostřednictvím ortologních genů[11][12] nebo použité hash citlivý na lokalitu v kombinaci s posloupností a strukturálními rysy.[13]

Mutace, které mění nukleotid sekvence, ale zachová se sekundární struktura kovariace a může poskytnout důkazy o zachování. K měření takové ochrany lze použít i jiné statistiky a pravděpodobnostní modely. První metodou objevu ncRNA, která použila strukturální konzervaci, byla QRNA,[9] který porovnával pravděpodobnosti seřazení dvou sekvencí na základě buď modelu RNA, nebo modelu, ve kterém se konzervovala pouze primární sekvence. Práce v tomto směru umožnila více než dvě sekvence a zahrnovala fylogenetické modely, např. S ​​EvoFold.[14] Přístup přijatý v RNAz[15] zahrnoval výpočetní statistiku na vstupním vícenásobném zarovnání. Některé z těchto statistik se týkají strukturální ochrany, zatímco jiné měří obecné vlastnosti zarovnání, které by mohly ovlivnit očekávané rozsahy strukturální statistiky. Tyto statistiky byly kombinovány pomocí a podporovat vektorový stroj.

Mezi další vlastnosti patří vzhled a promotér přepsat RNA. Po ncRNA také často následuje a Terminátor transkripce nezávislý na Rho.

Pomocí kombinace těchto přístupů četné studie vyjmenovaly kandidátské RNA, např. [9][12]Některé studie přistoupily k ruční analýze předpovědí, aby se zjistily podrobnosti strukturální a funkční předpovědi.[11][16][17]

Reference

  1. ^ Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (září 1997). „Gapped BLAST and PSI-BLAST: a new generation of protein database search programs“. Nucleic Acids Res. 25 (17): 3389–3402. doi:10.1093 / nar / 25.17.3389. PMC  146917. PMID  9254694.
  2. ^ Eddy SR, Durbin R (červen 1994). „Analýza sekvence RNA pomocí kovariančních modelů“. Nucleic Acids Res. 22 (11): 2079–2088. doi:10.1093 / nar / 22.11.2079. PMC  308124. PMID  8029015.
  3. ^ Nawrocki EP, Eddy SR (listopad 2013). „Infernal 1.1: 100krát rychlejší vyhledávání homologie RNA“. Bioinformatika. 29 (22): 2933–2935. doi:10.1093 / bioinformatika / btt509. PMC  3810854. PMID  24008419.
  4. ^ Lowe TM, Eddy SR (březen 1997). „tRNAscan-SE: program pro lepší detekci genů transferové RNA v genomové sekvenci“. Nucleic Acids Res. 25 (5): 955–964. doi:10.1093 / nar / 25.5.955. PMC  146525. PMID  9023104.
  5. ^ Lowe TM, Eddy SR (únor 1999). Msgstr "Výpočetní obrazovka pro methylační průvodce snoRNA v kvasnicích". Věda. 283 (5405): 1168–1171. doi:10.1126 / science.283.5405.1168. PMID  10024243. S2CID  8084145.
  6. ^ Hertel J, Hofacker IL, Stadler PF (leden 2008). „SnoReport: výpočetní identifikace snoRNA s neznámými cíli“. Bioinformatika. 24 (2): 158–164. doi:10.1093 / bioinformatika / btm464. PMID  17895272.
  7. ^ Tempel S, Tahi F (2012). „Rychlá metoda ab-initio pro predikci prekurzorů miRNA v genomech“. Nucleic Acids Res. 40 (11): 955–964. doi:10.1093 / nar / gks146. PMC  3367186. PMID  22362754.
  8. ^ Artzi S, Kiezun A, Shomron N (2008). „miRNAminer: nástroj pro homologní hledání genů pro mikroRNA“. BMC bioinformatika. 9 (1): 39. doi:10.1186/1471-2105-9-39. PMC  2258288. PMID  18215311.
  9. ^ A b C Rivas E, Eddy SR (2001). „Detekce nekódujícího RNA pomocí komparativní sekvenční analýzy“. BMC bioinformatika. 2: 8. doi:10.1186/1471-2105-2-8. PMC  64605. PMID  11801179.
  10. ^ Tseng HH, Weinberg Z, Gore J, Breaker RR, Ruzzo WL (duben 2009). „Hledání nekódujících RNA prostřednictvím shlukování v genomovém měřítku“. J Bioinform Comput Biol. 7 (2): 373–388. doi:10.1142 / s0219720009004126. PMC  3417115. PMID  19340921.
  11. ^ A b Weinberg Z, Barrick JE, Yao Z, Roth A, Kim JN, Gore J, Wang JX, Lee ER, Block KF, Sudarsan N, Neph S, Tompa M, Ruzzo WL, Breaker RR (2007). „Identifikace 22 kandidátských strukturovaných RNA v bakteriích pomocí komparativního genomického potrubí CMfinder“. Nucleic Acids Res. 35 (14): 4809–4819. doi:10.1093 / nar / gkm487. PMC  1950547. PMID  17621584.
  12. ^ A b Hammond MC, Wachter A, Breaker RR (květen 2009). „Rostlinná mimika 5S ribozomální RNA reguluje alternativní sestřih pre-mRNA transkripčního faktoru IIIA“. Nat. Struct. Mol. Biol. 16 (5): 541–549. doi:10.1038 / nsmb.1588. PMC  2680232. PMID  19377483.
  13. ^ Heyne S, Costa F, Rose D, Backofen R (červen 2012). „GraphClust: strukturní shlukování lokálních sekundárních struktur RNA bez zarovnání“. Bioinformatika. 28 (12): i224–32. doi:10.1093 / bioinformatika / bts224. PMC  3371856. PMID  22689765.
  14. ^ Pedersen JS, Bejerano G, Siepel A, Rosenbloom K, Lindblad-Toh K, Lander ES, Kent J, Miller W, Haussler D (duben 2006). "Identifikace a klasifikace konzervovaných sekundárních struktur RNA v lidském genomu". PLOS Comput. Biol. 2 (4): e33. doi:10.1371 / journal.pcbi.0020033. PMC  1440920. PMID  16628248.
  15. ^ Washietl S, Hofacker IL, Stadler PF (únor 2005). „Rychlá a spolehlivá předpověď nekódujících RNA“. Proc. Natl. Acad. Sci. USA. 102 (7): 2454–2459. doi:10.1073 / pnas.0409169102. PMC  548974. PMID  15665081.
  16. ^ Weinberg Z, Wang JX, Bogue J, Yang J, Corbino K, Moy RH, Breaker RR (2010). „Srovnávací genomika odhaluje 104 kandidátských strukturovaných RNA z bakterií, archea a jejich metagenomů“. Genome Biol. 11 (3): R31. doi:10.1186 / gb-2010-11-3-r31. PMC  2864571. PMID  20230605.
  17. ^ Weinberg Z, Lünse CE, Corbino KA, Ames TD, Nelson JW, Roth A, Perkins KR, Sherlock ME, Breaker RR (říjen 2017). „Detekce 224 kandidátských strukturovaných RNA srovnávací analýzou specifických podskupin intergenních oblastí“. Nucleic Acids Res. 45 (18): 10811–10823. doi:10.1093 / nar / gkx699. PMC  5737381. PMID  28977401.

Viz také