Bioinformatický objev nekódujících RNA - Bioinformatics discovery of non-coding RNAs

Nekódující RNA byly objeveny pomocí experimentálních i bioinformatické přístupy. Bioinformatické přístupy lze rozdělit do tří hlavních kategorií. První zahrnuje hledání homologie, i když tyto techniky nejsou podle definice schopny najít nové třídy ncRNA. Druhá kategorie zahrnuje algoritmy navržen tak, aby objevil konkrétní typy ncRNA, které mají podobné vlastnosti. A konečně, některé metody zjišťování jsou založeny na velmi obecných vlastnostech RNA, a jsou tak schopni objevovat zcela nové druhy ncRNA.

Objev podle homologie

Hledání homologie se týká procesu hledání a sekvenční databáze pro RNA, které jsou podobné již známým sekvencím RNA. Lze použít jakýkoli algoritmus, který je navržen pro homologické vyhledávání sekvencí nukleových kyselin, např. VÝBUCH.^[1] Takové algoritmy však obvykle nejsou tak citlivé nebo přesné jako algoritmy speciálně navržené pro RNA.

Zvláštní důležitost pro RNA má její zachování a sekundární struktura, které lze modelovat, aby se dosáhlo další přesnosti ve vyhledávání. Například, Kovarianční modely^[2] lze zobrazit jako rozšíření souboru profilový skrytý Markovův model to také odráží konzervovanou sekundární strukturu. Modely Covariance jsou implementovány v softwarovém balíčku Infernal.^[3]

Objev specifických typů ncRNA

Některé typy RNA mají sdílené vlastnosti, které mohou algoritmy využívat. Například tRNAscan-SE^[4] se specializuje na hledání tRNA. Srdcem tohoto programu je vyhledávání homologie tRNA založené na kovariančních modelech, ale k urychlení vyhledávání se používají jiné vyhledávací programy specifické pro tRNA.

Vlastnosti snoRNA umožnily vývoj programů pro detekci nových příkladů snoRNA, včetně těch, které mohou jen vzdáleně souviset s dříve známými příklady. Mezi počítačové programy implementující tyto přístupy patří snoscan^[5] a snoReport.^[6]

Podobně bylo pro detekci vyvinuto několik algoritmů mikroRNA. Mezi příklady patří miRNAFold^[7] a miRNAminer^[8]

Objev podle obecných vlastností

Některé vlastnosti sdílí několik nesouvisejících tříd ncRNA a na tyto vlastnosti lze cílit, aby se objevily nové třídy. Mezi nimi je především zachování sekundární struktury RNA. Pro měření zachování sekundární struktury je nutné nějak najít homologní sekvence, které by mohly vykazovat společnou strukturu. Strategie k tomu zahrnovaly použití BLAST mezi dvěma sekvencemi ^[9] nebo více sekvencí,^[10] využívané synteny prostřednictvím ortologních genů^[11]^[12] nebo použité hash citlivý na lokalitu v kombinaci s posloupností a strukturálními rysy.^[13]

Mutace, které mění nukleotid sekvence, ale zachová se sekundární struktura kovariace a může poskytnout důkazy o zachování. K měření takové ochrany lze použít i jiné statistiky a pravděpodobnostní modely. První metodou objevu ncRNA, která použila strukturální konzervaci, byla QRNA,^[9] který porovnával pravděpodobnosti seřazení dvou sekvencí na základě buď modelu RNA, nebo modelu, ve kterém se konzervovala pouze primární sekvence. Práce v tomto směru umožnila více než dvě sekvence a zahrnovala fylogenetické modely, např. S EvoFold.^[14] Přístup přijatý v RNAz^[15] zahrnoval výpočetní statistiku na vstupním vícenásobném zarovnání. Některé z těchto statistik se týkají strukturální ochrany, zatímco jiné měří obecné vlastnosti zarovnání, které by mohly ovlivnit očekávané rozsahy strukturální statistiky. Tyto statistiky byly kombinovány pomocí a podporovat vektorový stroj.

Mezi další vlastnosti patří vzhled a promotér přepsat RNA. Po ncRNA také často následuje a Terminátor transkripce nezávislý na Rho.

Pomocí kombinace těchto přístupů četné studie vyjmenovaly kandidátské RNA, např. ^[9]^[12]Některé studie přistoupily k ruční analýze předpovědí, aby se zjistily podrobnosti strukturální a funkční předpovědi.^[11]^[16]^[17]

Reference

^ Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (září 1997). „Gapped BLAST and PSI-BLAST: a new generation of protein database search programs“. Nucleic Acids Res. 25 (17): 3389–3402. doi:10.1093 / nar / 25.17.3389. PMC 146917. PMID 9254694.
^ Eddy SR, Durbin R (červen 1994). „Analýza sekvence RNA pomocí kovariančních modelů“. Nucleic Acids Res. 22 (11): 2079–2088. doi:10.1093 / nar / 22.11.2079. PMC 308124. PMID 8029015.
^ Nawrocki EP, Eddy SR (listopad 2013). „Infernal 1.1: 100krát rychlejší vyhledávání homologie RNA“. Bioinformatika. 29 (22): 2933–2935. doi:10.1093 / bioinformatika / btt509. PMC 3810854. PMID 24008419.
^ Lowe TM, Eddy SR (březen 1997). „tRNAscan-SE: program pro lepší detekci genů transferové RNA v genomové sekvenci“. Nucleic Acids Res. 25 (5): 955–964. doi:10.1093 / nar / 25.5.955. PMC 146525. PMID 9023104.
^ Lowe TM, Eddy SR (únor 1999). Msgstr "Výpočetní obrazovka pro methylační průvodce snoRNA v kvasnicích". Věda. 283 (5405): 1168–1171. doi:10.1126 / science.283.5405.1168. PMID 10024243. S2CID 8084145.
^ Hertel J, Hofacker IL, Stadler PF (leden 2008). „SnoReport: výpočetní identifikace snoRNA s neznámými cíli“. Bioinformatika. 24 (2): 158–164. doi:10.1093 / bioinformatika / btm464. PMID 17895272.
^ Tempel S, Tahi F (2012). „Rychlá metoda ab-initio pro predikci prekurzorů miRNA v genomech“. Nucleic Acids Res. 40 (11): 955–964. doi:10.1093 / nar / gks146. PMC 3367186. PMID 22362754.
^ Artzi S, Kiezun A, Shomron N (2008). „miRNAminer: nástroj pro homologní hledání genů pro mikroRNA“. BMC bioinformatika. 9 (1): 39. doi:10.1186/1471-2105-9-39. PMC 2258288. PMID 18215311.
^ ^A ^b ^C Rivas E, Eddy SR (2001). „Detekce nekódujícího RNA pomocí komparativní sekvenční analýzy“. BMC bioinformatika. 2: 8. doi:10.1186/1471-2105-2-8. PMC 64605. PMID 11801179.
^ Tseng HH, Weinberg Z, Gore J, Breaker RR, Ruzzo WL (duben 2009). „Hledání nekódujících RNA prostřednictvím shlukování v genomovém měřítku“. J Bioinform Comput Biol. 7 (2): 373–388. doi:10.1142 / s0219720009004126. PMC 3417115. PMID 19340921.
^ ^A ^b Weinberg Z, Barrick JE, Yao Z, Roth A, Kim JN, Gore J, Wang JX, Lee ER, Block KF, Sudarsan N, Neph S, Tompa M, Ruzzo WL, Breaker RR (2007). „Identifikace 22 kandidátských strukturovaných RNA v bakteriích pomocí komparativního genomického potrubí CMfinder“. Nucleic Acids Res. 35 (14): 4809–4819. doi:10.1093 / nar / gkm487. PMC 1950547. PMID 17621584.
^ ^A ^b Hammond MC, Wachter A, Breaker RR (květen 2009). „Rostlinná mimika 5S ribozomální RNA reguluje alternativní sestřih pre-mRNA transkripčního faktoru IIIA“. Nat. Struct. Mol. Biol. 16 (5): 541–549. doi:10.1038 / nsmb.1588. PMC 2680232. PMID 19377483.
^ Heyne S, Costa F, Rose D, Backofen R (červen 2012). „GraphClust: strukturní shlukování lokálních sekundárních struktur RNA bez zarovnání“. Bioinformatika. 28 (12): i224–32. doi:10.1093 / bioinformatika / bts224. PMC 3371856. PMID 22689765.
^ Pedersen JS, Bejerano G, Siepel A, Rosenbloom K, Lindblad-Toh K, Lander ES, Kent J, Miller W, Haussler D (duben 2006). "Identifikace a klasifikace konzervovaných sekundárních struktur RNA v lidském genomu". PLOS Comput. Biol. 2 (4): e33. doi:10.1371 / journal.pcbi.0020033. PMC 1440920. PMID 16628248.
^ Washietl S, Hofacker IL, Stadler PF (únor 2005). „Rychlá a spolehlivá předpověď nekódujících RNA“. Proc. Natl. Acad. Sci. USA. 102 (7): 2454–2459. doi:10.1073 / pnas.0409169102. PMC 548974. PMID 15665081.
^ Weinberg Z, Wang JX, Bogue J, Yang J, Corbino K, Moy RH, Breaker RR (2010). „Srovnávací genomika odhaluje 104 kandidátských strukturovaných RNA z bakterií, archea a jejich metagenomů“. Genome Biol. 11 (3): R31. doi:10.1186 / gb-2010-11-3-r31. PMC 2864571. PMID 20230605.
^ Weinberg Z, Lünse CE, Corbino KA, Ames TD, Nelson JW, Roth A, Perkins KR, Sherlock ME, Breaker RR (říjen 2017). „Detekce 224 kandidátských strukturovaných RNA srovnávací analýzou specifických podskupin intergenních oblastí“. Nucleic Acids Res. 45 (18): 10811–10823. doi:10.1093 / nar / gkx699. PMC 5737381. PMID 28977401.

Viz také

[1] Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (září 1997). „Gapped BLAST and PSI-BLAST: a new generation of protein database search programs“. Nucleic Acids Res. 25 (17): 3389–3402. doi:10.1093 / nar / 25.17.3389. PMC 146917. PMID 9254694.

[2] Eddy SR, Durbin R (červen 1994). „Analýza sekvence RNA pomocí kovariančních modelů“. Nucleic Acids Res. 22 (11): 2079–2088. doi:10.1093 / nar / 22.11.2079. PMC 308124. PMID 8029015.

[3] Nawrocki EP, Eddy SR (listopad 2013). „Infernal 1.1: 100krát rychlejší vyhledávání homologie RNA“. Bioinformatika. 29 (22): 2933–2935. doi:10.1093 / bioinformatika / btt509. PMC 3810854. PMID 24008419.

[4] Lowe TM, Eddy SR (březen 1997). „tRNAscan-SE: program pro lepší detekci genů transferové RNA v genomové sekvenci“. Nucleic Acids Res. 25 (5): 955–964. doi:10.1093 / nar / 25.5.955. PMC 146525. PMID 9023104.

[5] Lowe TM, Eddy SR (únor 1999). Msgstr "Výpočetní obrazovka pro methylační průvodce snoRNA v kvasnicích". Věda. 283 (5405): 1168–1171. doi:10.1126 / science.283.5405.1168. PMID 10024243. S2CID 8084145.

[6] Hertel J, Hofacker IL, Stadler PF (leden 2008). „SnoReport: výpočetní identifikace snoRNA s neznámými cíli“. Bioinformatika. 24 (2): 158–164. doi:10.1093 / bioinformatika / btm464. PMID 17895272.

[7] Tempel S, Tahi F (2012). „Rychlá metoda ab-initio pro predikci prekurzorů miRNA v genomech“. Nucleic Acids Res. 40 (11): 955–964. doi:10.1093 / nar / gks146. PMC 3367186. PMID 22362754.

[8] Artzi S, Kiezun A, Shomron N (2008). „miRNAminer: nástroj pro homologní hledání genů pro mikroRNA“. BMC bioinformatika. 9 (1): 39. doi:10.1186/1471-2105-9-39. PMC 2258288. PMID 18215311.

[QRNA-9] A ^b ^C Rivas E, Eddy SR (2001). „Detekce nekódujícího RNA pomocí komparativní sekvenční analýzy“. BMC bioinformatika. 2: 8. doi:10.1186/1471-2105-2-8. PMC 64605. PMID 11801179.

[10] Tseng HH, Weinberg Z, Gore J, Breaker RR, Ruzzo WL (duben 2009). „Hledání nekódujících RNA prostřednictvím shlukování v genomovém měřítku“. J Bioinform Comput Biol. 7 (2): 373–388. doi:10.1142 / s0219720009004126. PMC 3417115. PMID 19340921.

[22motifs-11] A ^b Weinberg Z, Barrick JE, Yao Z, Roth A, Kim JN, Gore J, Wang JX, Lee ER, Block KF, Sudarsan N, Neph S, Tompa M, Ruzzo WL, Breaker RR (2007). „Identifikace 22 kandidátských strukturovaných RNA v bakteriích pomocí komparativního genomického potrubí CMfinder“. Nucleic Acids Res. 35 (14): 4809–4819. doi:10.1093 / nar / gkm487. PMC 1950547. PMID 17621584.

[P5SM-12] A ^b Hammond MC, Wachter A, Breaker RR (květen 2009). „Rostlinná mimika 5S ribozomální RNA reguluje alternativní sestřih pre-mRNA transkripčního faktoru IIIA“. Nat. Struct. Mol. Biol. 16 (5): 541–549. doi:10.1038 / nsmb.1588. PMC 2680232. PMID 19377483.

[13] Heyne S, Costa F, Rose D, Backofen R (červen 2012). „GraphClust: strukturní shlukování lokálních sekundárních struktur RNA bez zarovnání“. Bioinformatika. 28 (12): i224–32. doi:10.1093 / bioinformatika / bts224. PMC 3371856. PMID 22689765.

[14] Pedersen JS, Bejerano G, Siepel A, Rosenbloom K, Lindblad-Toh K, Lander ES, Kent J, Miller W, Haussler D (duben 2006). "Identifikace a klasifikace konzervovaných sekundárních struktur RNA v lidském genomu". PLOS Comput. Biol. 2 (4): e33. doi:10.1371 / journal.pcbi.0020033. PMC 1440920. PMID 16628248.

[15] Washietl S, Hofacker IL, Stadler PF (únor 2005). „Rychlá a spolehlivá předpověď nekódujících RNA“. Proc. Natl. Acad. Sci. USA. 102 (7): 2454–2459. doi:10.1073 / pnas.0409169102. PMC 548974. PMID 15665081.

[16] Weinberg Z, Wang JX, Bogue J, Yang J, Corbino K, Moy RH, Breaker RR (2010). „Srovnávací genomika odhaluje 104 kandidátských strukturovaných RNA z bakterií, archea a jejich metagenomů“. Genome Biol. 11 (3): R31. doi:10.1186 / gb-2010-11-3-r31. PMC 2864571. PMID 20230605.

[17] Weinberg Z, Lünse CE, Corbino KA, Ames TD, Nelson JW, Roth A, Perkins KR, Sherlock ME, Breaker RR (říjen 2017). „Detekce 224 kandidátských strukturovaných RNA srovnávací analýzou specifických podskupin intergenních oblastí“. Nucleic Acids Res. 45 (18): 10811–10823. doi:10.1093 / nar / gkx699. PMC 5737381. PMID 28977401.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Bioinformatika
Databáze	Sekvenční databáze: GenBank, Evropský archiv nukleotidů a DNA Data Bank of Japan Sekundární databáze: UniProt, databáze proteinových sekvencí seskupených dohromady Swiss-Prot, TrEMBL a Zdroj informací o bílkovinách Další databáze: Proteinová datová banka, Ensembl a InterPro Specializované genomové databáze: TUČNĚ, Databáze genomu Saccharomyces, FlyBase, VectorBase, WormBase, Databáze krysích genomů, Základna PHI, Informační zdroj Arabidopsis a Zebrafish Information Network
Software	VÝBUCH Motýlek Clustal VYTEPAT HMMER SVAL SAMtools SOAP suite Cylindr
jiný	Server: EXPASY Ontologie: Genová ontologie Rosalind (vzdělávací platforma)
Instituce	Široký institut China National GeneBank (CNGB) Oddělení výpočetní biologie (CBD) Microsoft Research - Centrum výpočetní a biologie systémů University of Trento (COSBI) Databázové centrum pro vědu o živé přírodě (DBCLS) DNA Data Bank of Japan (DDBJ) Evropský bioinformatický institut (EMBL-EBI) Evropská laboratoř molekulární biologie (EMBL) Flatiron Institute Institut J. Craiga Ventera (JCVI) Max Planck Institute of Molecular Cell Biology and Genetics (MPI-CBG) Americké národní středisko pro biotechnologické informace (NCBI) Japonský ústav genetiky Nizozemské bioinformatické centrum (NBIC) Centrum filipínského genomu (PGC) Výzkum skriptů Švýcarský institut pro bioinformatiku (SIB) Wellcome Sanger Institute Whitehead Institute
Organizace	Africká společnost pro bioinformatiku a výpočetní biologii (ASBCB) Austrálie - zdroj bioinformatiky (EMBL-AR) Evropská síť molekulární biologie (EMBnet) Mezinárodní spolupráce s databází nukleotidových sekvencí (INSDC) International Society for Biocuration (ISB) Mezinárodní společnost pro výpočetní biologii (ISCB) Studentská rada (ISCB-SC) Ústav genomiky a integrační biologie (CSIR-IGIB) Japonská společnost pro bioinformatiku (JSBi)
Setkání	Konference o výpočetní biologii v Basileji ([PŘED NAŠÍM LETOPOČTEM²]) Evropská konference o výpočetní biologii (ECCB) Inteligentní systémy pro molekulární biologii (ISMB) Mezinárodní konference o bioinformatice (InCoB) Konference ISCB Africa ASBCB o bioinformatice Pacifické symposium o biopočítačích (PSB) Výzkum v oblasti výpočetní molekulární biologie (RECOMB)
Formáty souborů	CRAM formát Formát FASTA Formát FASTQ Formát NeXML Formát Nexus Pileup formát Formát SAM Stockholmský formát
související témata	Výpočetní biologie Seznam biobanek Seznam biologických databází Molekulární fylogenetika Sekvenování Sekvenční databáze Sekvenční zarovnání
Kategorie Commons