Rfam - Rfam - Wikipedia
Obsah | |
---|---|
Popis | Databáze Rfam poskytuje uspořádání, konsensuální sekundární struktury a kovarianční modely pro rodiny RNA. |
Typy dat zajat | Rodiny RNA |
Organismy | Všechno |
Kontakt | |
Výzkumné centrum | EBI |
Primární citace | PMID 29112718 |
Přístup | |
Datový formát | Stockholmský formát |
webová stránka | rfam |
Stáhnout URL | FTP |
Smíšený | |
Licence | Veřejná doména |
Bookmarkable subjekty | Ano |
Rfam je databáze obsahující informace o nekódující RNA (ncRNA) rodiny a další strukturované prvky RNA. Je to anotováno, otevřený přístup databáze původně vyvinutá na Wellcome Trust Sanger Institute ve spolupráci s Janelia Farm,[1][2][3][4] a v současné době hostuje v Evropský bioinformatický institut.[5] Rfam je navržen tak, aby byl podobný Pfam databáze anotujících proteinových rodin.
Na rozdíl od bílkoviny, ncRNA mají často podobné sekundární struktura bez sdílení velké podobnosti v primární sekvence. Rfam rozděluje ncRNA do rodin na základě evoluce od společného předka. Produkce vícenásobné zarovnání sekvence (MSA) těchto rodin mohou poskytnout vhled do jejich struktury a funkcí, podobně jako v případě proteinových rodin. Tyto MSA jsou užitečnější přidáním informací o sekundární struktuře. Vědci Rfam také přispívají k Wikipedia je RNA WikiProject.[4][6]
Použití
Databázi Rfam lze použít pro různé funkce. U každé rodiny ncRNA umožňuje rozhraní uživatelům: zobrazit a stáhnout více zarovnání sekvencí; číst anotaci; a zkoumat druhové rozdělení členů rodiny. K dispozici jsou také odkazy na odkazy na literaturu a další databáze RNA. Rfam také poskytuje odkazy na Wikipedii, takže uživatelé mohou vytvářet nebo upravovat položky.
Rozhraní na webu Rfam umožňuje uživatelům vyhledávat ncRNA podle klíčových slov, příjmení nebo genomu a také vyhledávat podle sekvence ncRNA nebo EMBL přístupové číslo. [1] Informace o databázi jsou také k dispozici ke stažení, instalaci a použití pomocí softwarového balíčku INFERNAL.[7][8][9] Balíček INFERNAL lze také použít s Rfam k anotaci sekvencí (včetně úplných genomů) pro homology ke známým ncRNA.
Metody
V databázi jsou informace o sekundární struktura a primární sekvence, zastoupená MSA, je kombinován ve statistických modelech nazývaných profil stochastické bezkontextové gramatiky (SCFG), také známé jako kovarianční modely. Jsou analogické k skryté Markovovy modely používá se pro anotaci rodiny proteinů v Pfam databáze.[1] Každá rodina v databázi je reprezentována dvěma více zarovnáními sekvencí v Stockholmský formát a SCFG.
První MSA je zarovnání „seed“. Jedná se o ručně kurátované zarovnání, které obsahuje reprezentativní členy rodiny ncRNA a je anotováno strukturálními informacemi. Toto zarovnání osiva se používá k vytvoření SCFG, který se používá se softwarem Rfam INFERNAL k identifikaci dalších členů rodiny a jejich přidání do zarovnání. Je vybrána prahová hodnota specifická pro rodinu, aby se zabránilo falešným pozitivům.
Do vydání 12 používal Rfam iniciálu VÝBUCH krok filtrování, protože profilové SCFG byly výpočetně příliš nákladné. Nejnovější verze INFERNAL jsou však dostatečně rychlé[10] takže krok BLAST již není nutný.[11]
Druhá MSA je „úplné“ zarovnání a je vytvořena jako výsledek hledání pomocí kovariančního modelu proti databázi sekvencí. Vše zjištěno homology jsou zarovnány k modelu, což dává automaticky vytvořenému úplnému zarovnání.
Dějiny
Verze 1.0 Rfam byla uvedena na trh v roce 2003 a obsahovala 25 rodin ncRNA a anotovala asi 50 000 genů ncRNA. V roce 2005 byla vydána verze 6.1 a obsahovala 379 rodin s anotacemi více než 280 000 genů. V srpnu 2012 verze 11.0 obsahovala 2208 rodin RNA, zatímco aktuální verze (14.1) anotuje 3016 rodin.
Problémy
- Genomy vyšších eukaryot obsahují mnoho odvozených od ncRNA pseudogeny a opakuje se. Rozlišování těchto nefunkčních kopií od funkční ncRNA je impozantní výzvou.[2]
- Introny nejsou modelovány kovariančními modely.
Reference
- ^ A b Griffiths-Jones S, Bateman A, Marshall M, Khanna A, Eddy SR (2003). „Rfam: databáze rodiny RNA“. Nucleic Acids Res. 31 (1): 439–41. doi:10.1093 / nar / gkg006. PMC 165453. PMID 12520045.
- ^ A b Griffiths-Jones S, Moxon S, Marshall M, Khanna A, Eddy SR, Bateman A (2005). „Rfam: anotace nekódujících RNA v kompletních genomech“. Nucleic Acids Res. 33 (Problém s databází): D121–4. doi:10.1093 / nar / gki081. PMC 540035. PMID 15608160.
- ^ Gardner PP, Daub J, Tate JG a kol. (Říjen 2008). „Rfam: aktualizace databáze rodin RNA“. Výzkum nukleových kyselin. 37 (Problém s databází): D136 – D140. doi:10.1093 / nar / gkn766. PMC 2686503. PMID 18953034.
- ^ A b Gardner PP, Daub J, Tate J, Moore BL, Osuch IH, Griffiths-Jones S, Finn RD, Nawrocki EP, Kolbe DL, Eddy SR, Bateman A (2011). „Rfam: Wikipedia, klany a„ desetinné “vydání“. Nucleic Acids Res. 39 (Problém s databází): D141–5. doi:10.1093 / nar / gkq1129. PMC 3013711. PMID 21062808.
- ^ „Přesun na xfam.org“. Blog Xfam. Citováno 3. května 2014.
- ^ Daub J, Gardner PP, Tate J a kol. (Říjen 2008). „RNA WikiProject: Komunitní anotace rodin RNA“. RNA. 14 (12): 2462–4. doi:10.1261 / rna.1200508. PMC 2590952. PMID 18945806.
- ^ Eddy SR, Durbin R (červen 1994). „Analýza sekvence RNA pomocí kovariančních modelů“. Výzkum nukleových kyselin. 22 (11): 2079–88. doi:10.1093 / nar / 22.11.2079. PMC 308124. PMID 8029015.
- ^ Eddy SR (2002). „Paměťově efektivní algoritmus dynamického programování pro optimální zarovnání sekvence se sekundární strukturou RNA“. BMC bioinformatika. 3: 18. doi:10.1186/1471-2105-3-18. PMC 119854. PMID 12095421.
- ^ Nawrocki EP, Eddy SR (2013). „Infernal 1.1: 100krát rychlejší vyhledávání homologie RNA“. Bioinformatika. 29 (22): 2933–5. doi:10.1093 / bioinformatika / btt509. PMC 3810854. PMID 24008419.
- ^ Nawrocki, Eric P .; Eddy, Sean R. (2013-11-15). „Infernal 1.1: 100krát rychlejší vyhledávání homologie RNA“. Bioinformatika. 29 (22): 2933–2935. doi:10.1093 / bioinformatika / btt509. ISSN 1367-4811. PMC 3810854. PMID 24008419.
- ^ Nawrocki, Eric P .; Burge, Sarah W .; Bateman, Alex; Daub, Jennifer; Eberhardt, Ruth Y .; Eddy, Sean R .; Floden, Evan W .; Gardner, Paul P .; Jones, Thomas A. (leden 2015). "Rfam 12.0: aktualizace databáze rodin RNA". Výzkum nukleových kyselin. 43 (Problém s databází): D130–137. doi:10.1093 / nar / gku1063. ISSN 1362-4962. PMC 4383904. PMID 25392425.