WormBase - WormBase
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
![]() | |
---|---|
Obsah | |
Popis | WormBase: komplexní zdroj pro výzkum hlístic. |
Organismy | Caenorhabditis elegans |
Kontakt | |
Primární citace | PMID 19910365 |
Přístup | |
webová stránka | http://www.wormbase.org/ |
WormBase je online biologická databáze o biologii a genomu hlístice modelový organismus Caenorhabditis elegans a obsahuje informace o dalších souvisejících nematodech.[1][2] WormBase používá C. elegans výzkumná komunita jako informační zdroj i jako místo pro publikování a distribuci jejich výsledků. Databáze je pravidelně aktualizována a každé dva měsíce jsou vydávány nové verze. WormBase je jednou z organizací účastnících se Databáze obecných modelových organizmů (GMOD) projekt.
Obsah
WormBase zahrnuje následující hlavní soubory dat:
- Anotované genomy Caenorhabditis elegans, Caenorhabditis briggsae, Caenorhabditis remanei, Caenorhabditis brenneri, Caenorhabditis angaria, Pristionchus pacificus, Haemonchus contortus, Meloidogyne hapla, Meloidogyne incognita, Brugia malayi a Onchocerca volvulus;
- Ručně upravené poznámky popisující funkci ~ 20 500 C. elegans geny kódující proteiny a ~ 16 000 C. elegans nekódující geny;
- Genové rodiny;
- Ortologie;
- Vazebná místa pro genomový transkripční faktor
- Komplexní informace o mutovaných alelách a jejich fenotypech;
- Celý genom RNAi (Interference RNA) obrazovky;
- Genetické mapy, markery a polymorfismy;
- The C. elegans fyzická mapa;
- Profily genové exprese (fáze, tkáň a buňky) z mikročipů, SAGE analýzy a fúzí promotoru GFP;
- Kompletní buněčná linie červa;
- Schéma zapojení nervového systému červa;
- Interakce protein-protein Interactome data;
- Genetické regulační vztahy;
- Podrobnosti o intra- a inter-specifické sekvenci homologie (s odkazy na jiné Modelové databáze organizmů ).
Kromě toho obsahuje WormBase aktuální bibliografii s možností vyhledávání C. elegans výzkumu a souvisí s WormBook projekt.
Nástroje
WormBase nabízí mnoho způsobů vyhledávání a načítání dat z databáze:
- WormMart, Wiki - byl[3] nástroj pro získávání různých informací o mnoha genech (nebo sekvencích těchto genů). Toto byla implementace WormBase BioMart.[4]
- WormMine, Wiki - od roku 2016,[3] primární zařízení pro dolování dat. Toto je implementace WormBase InterMine.[5]
- Prohlížeč genomu procházet geny C. elegans (a další druhy) v jejich genomickém kontextu
- Textpresso - vyhledávací nástroj, který zadává dotazy C. elegans literatura (včetně abstraktů z jednání) a podmnožina nematodové literatury.
Sekvenční kurace
Sekvenční kurace na WormBase se týká udržování a anotace primární genomové sekvence a konsensuální genové sady.
Sekvence genomu
I když C. elegans sekvence genomu je nejpřesnější a nejkompletnější sekvence eukaryotického genomu, neustále je potřeba ji vylepšovat, protože byly vytvořeny nové důkazy. Mnoho z těchto změn bylo vložením nebo delecí jednoho nukleotidu, nicméně bylo odhaleno několik velkých chybných sestav. Například v roce 2005 musel být obrácen kosmid o velikosti 39 kb. Další zlepšení pocházejí z porovnání genomové DNA se sekvencemi cDNA a analýzy vysoce výkonných dat RNASeq. Když jsou identifikovány rozdíly mezi genomovou sekvencí a transkripty, vede opětovná analýza původních genomových dat k modifikacím genomové sekvence. Změny v genomové sekvenci představují potíže při porovnávání chromozomálních souřadnic dat odvozených z různých verzí WormBase. Pro usnadnění těchto srovnání jsou k dispozici program a data mapování souřadnic: http://wiki.wormbase.org/index.php/Converting_Coordinates_b Between_releases
Modely genové struktury
Všechny sady genů druhů WormBase byly původně generovány programy predikce genů. Programy genové predikce poskytují rozumnou sadu genových struktur, ale nejlepší z nich správně předpovídají pouze asi 80% úplných genových struktur. Mají potíže s předvídáním genů s neobvyklými strukturami, stejně jako genů se slabým počátečním signálem translace, slabými spojovacími místy nebo geny pro jeden exon. Mohou nesprávně předpovědět model kódujícího genu, kde je genem pseudogen, a špatně, pokud vůbec, předpovídají izoformy genu.
Genové modely C. elegans, C. briggsae, C. remanei, a C. brenneri geny jsou ručně kurátorovány. Většina změn genové struktury byla založena na údajích o přepisu z rozsáhlých projektů, jako jsou knihovny EST Yujiho Kohary, projekt Marka Vidala Orfeome (worfdb.dfci.harvard.edu/) Waterston a Hillier's Illumina data a údaje Makedonky Mitrevy 454. Jiné datové typy (např. Vyrovnání proteinů, ab initio predikční programy, vedoucí místa trans-sestřihu, poly-A signály a místa přidání, SAGE a TEC-RED transkriptové značky, hmotnostní spektroskopické peptidy a konzervované proteinové domény) jsou užitečné při zušlechťování struktur, zejména tam, kde je nízká exprese a transkripty nejsou dostatečně dostupné. Pokud jsou geny konzervovány mezi dostupnými druhy hlístic, srovnávací analýza může být také velmi informativní.
WormBase povzbuzuje vědce, aby je informovali prostřednictvím helpdesku, pokud mají důkazy o nesprávné genové struktuře. Jakýkoli důkaz cDNA nebo mRNA sekvence pro změnu by měl být předložen EMBL / GenBank / DDBJ; to pomáhá při potvrzení a důkazu pro genový model, protože WormBase rutinně načítá data sekvence z těchto veřejných databází. Díky tomu jsou údaje také zveřejněny, což vědcům umožňuje odpovídající reference a potvrzení.
Při jakékoli změně CDS (nebo pseudogenu) se starý genový model zachová jako objekt „historie“. Bude mít název přípony jako: „AC3.5: wp119“, kde „AC3.5“ je název CDS a „119“ odkazuje na vydání databáze, ve kterém byla změna provedena. Důvod změny a důkazy o změně jsou přidány do anotace CDS - lze je vidět v části Visible / Remark v části „Tree Display“ CDS na webové stránce WormBase.
Genová nomenklatura
Geny
Ve WormBase je gen oblast, která je exprimována, nebo oblast, která byla exprimována a nyní je pseudogenem. Geny mají jedinečné identifikátory, například „WBGene00006415“. Všechny geny C. elegans WormBase mají také název sekvence, který je odvozen například od klonu kosmidu, fosmidu nebo YAC, na kterém se nacházejí, F38H4.7, což znamená, že je na kosmidu „F38H4“, a na tomto kosmidu je alespoň 6 dalších genů. Pokud gen produkuje protein, který lze klasifikovat jako člena rodiny, lze mu také přiřadit a CGC jméno jako značka-30 což naznačuje, že se jedná o 30 štítek genová rodina. Přiřazování jmen genových rodin je řízeno WormBase [6] a žádosti o jména je třeba podat před zveřejněním prostřednictvím formuláře na adrese: http://tazendra.caltech.edu/~azurebrd/cgi-bin/forms/gene_name.cgi
Existuje několik výjimek z tohoto formátu, například geny cln-3.1, cln-3.2, a cln-3.3 které jsou všechny stejně podobné lidskému genu CLN3.Gene GCG názvy pro ne-eleganové druhy ve WormBase mají předpřipravený třípísmenný druhový kód, jako Cre-acl-5, CBR-ACL-5, Cbn-acl-5.
Genem může být pseudogen nebo může exprimovat jeden nebo více nekódujících RNA genů (ncRNA) nebo protein kódujících sekvencí (CDS).
Pseudogeny
Pseudogeny jsou geny, které neprodukují přiměřený a funkční přepis. Mohou to být pseudogeny kódujících genů nebo nekódující RNA a mohou to být celé nebo fragmenty genu a mohou nebo nemusí exprimovat transkript. Hranice mezi tím, co je považováno za rozumné kódovací přepis je někdy subjektivní, protože při absenci jiných důkazů může použití slabých spojovacích míst nebo krátkých exonů často vést k domnělému, i když neuspokojivému modelu CDS. Pseudogeny a geny s problematickou strukturou jsou ve WormBase neustále přezkoumávány a ke zjištění jejich stavu se používají nové důkazy.
CDS
Coding Sequences (CDS) jsou jedinou částí struktury genu, která je ručně upravována ve WormBase. Struktura genu a jeho přepisy jsou odvozeny od struktury jejich CDS.
CDS mají název sekvence, který je odvozen od stejného názvu sekvence jako jejich nadřazený genový objekt, takže gen „F38H4.7“ má CDS s názvem „F38H4.7“. CDS specifikuje kódující exony v genu od kodonu START (methionin) až po (včetně) kodonu STOP.
Jakýkoli gen může kódovat více proteinů v důsledku alternativního sestřihu. Tyto izoformy mají název, který je vytvořen ze sekvenčního názvu genu s připojeným jedinečným písmenem. V případě gen bli-4 existuje 6 známých izoforem CDS, nazývaných K04F10.4a, K04F10.4b, K04F10.4c, K04F10.4d, K04F10.4e a K04F10.4f.
Je běžné odkazovat na izoformy v literatuře používající například název rodiny genů CGC s připojeným písmenem pha-4a, nicméně to nemá v databázi WormBase žádný význam a hledá ji pha-4a ve WormBase nic nevrátí. Správný název této izoformy je buď název CDS / Transcript: F38A6.1anebo ještě lépe název proteinu: WP: CE15998.
Genové přepisy
Transkripty genu ve WormBase jsou automaticky odvozeny mapováním jakéhokoli dostupného uspořádání cDNA nebo mRNA na model CDS. Tyto genové transkripty proto často zahrnují UTR exony obklopující CDS. Pokud nejsou k dispozici žádné cDNA nebo mRNA transkripty, pak genové transkripty budou mít přesně stejnou strukturu jako CDS, na které jsou modelovány.
Genové přepisy jsou pojmenovány podle názvu sekvence CDS použitého k jejich vytvoření, například F38H4.7 nebo K04F10.4a.
Pokud však v UTR existuje alternativní sestřih, který by nezměnil proteinovou sekvenci, jsou alternativně sestříhané transkripty pojmenovány připojenou číslicí, například: K04F10.4a.1 a K04F10.4a.2. Pokud například neexistují žádné izoformy kódujícího genu AC3.5, ale v UTR existuje alternativní sestřih, bude pojmenováno několik přepisů AC3.5.1 a AC3.5.2atd. Pokud neexistují žádné alternativní přepisy UTR, pojmenuje se jeden kódovací_přepis stejně jako CDS a nemá připojený .1, jako v případě K04F10.4f.
Operony
Skupiny genů, které jsou přepisovány jako operony, jsou kurátorovány jako operonové objekty. Mají jména jako CEOP5460 a jsou ručně vyléčeny pomocí důkazů z míst SL2 trans-sestřižené vedoucí sekvence.
Nekódující RNA geny
Ve WormBase existuje několik tříd nekódujících tříd genů RNA:
- tRNA geny předpovídá program „tRNAscan-SE“.
- rRNA geny jsou předpovídány homologií s jinými druhy.
- snRNA geny jsou převážně dováženy z Rfam.
- piRNA geny pocházejí z analýzy charakteristického motivu v těchto genech.
- miRNA geny byly převážně dováženy z miRBase. Mají označen primární přepis a zralý přepis. Primární přepis bude mít název sekvence jako W09G3.10 a dospělý přepis bude mít k tomuto jménu přidáno písmeno jako W09G3.10a (a pokud existují alternativní zralé přepisy, W09G3.10b, atd.).
- snoRNA geny se dovážejí hlavně z Rfam nebo z papírů.
- Geny ncRNA, které nemají zjevnou jinou funkci, ale které zjevně nejsou kódující protein a nejsou pseudogeny, jsou kuratovány. Mnoho z nich si zachovalo homologii s geny jiných druhů. Některé z nich jsou exprimovány v opačném smyslu než geny kódující proteiny.
Existuje také jeden gen scRNA.
Transpozony
Transpozony nejsou klasifikovány jako geny, a proto nemají rodičovský genový objekt. Jejich struktura je označena jako objekt Transposon_CDS s názvem like C29E6.6.
Jiné druhy
Non-elegans druhy ve WormBase mají genomy, které byly sestaveny ze sekvenčních technologií, které nezahrnují sekvenování kosmidů nebo YAC. Tyto druhy proto nemají názvy sekvencí pro CDS a genové transkripty, které jsou založeny na názvech kosmidů. Místo toho mají jedinečné alfanumerické identifikátory vytvořené jako názvy v tabulce níže.
Druh | Příklad názvu genu |
---|---|
C. briggsae | CBG00001 |
C. remanei | CRE00001 |
C. brenneri | CBN00001 |
C. japonica | CJA00001 |
Pristionchus pacificus | PPA00001 |
Proteiny
Proteinové produkty genu jsou vytvořeny translací sekvencí CDS. Každá jedinečná proteinová sekvence má jedinečný identifikační název WP: CE40440. Příklady názvů identifikátorů proteinů pro každý druh ve WormBase jsou uvedeny v tabulce níže.
Druh | Příklad názvu proteinu |
---|---|
C. elegans | WP: CE00001 |
C. briggsae | BP: CBP00001 |
C. remanei | RP: RP00001 |
C. brenneri | CN: CN00001 |
C. japonica | JA: JA00001 |
Pristionchus pacificus | PP: PP00001 |
Heterorhabditis bakteriophora | HB: HB00001 |
Brugia malayi | BM: BM00001 |
Meloidogyne hapla | MH: MH00001 |
Meloidogyne incognita | MI: MI00001 |
Haemonchus contortus | HC: HC00001 |
Je možné, aby dvě sekvence CDS z oddělených genů v rámci druhu byly identické, a tak je možné mít identické proteiny kódované samostatnými geny. Když k tomu dojde, použije se pro protein jeden jedinečný identifikační název, přestože je produkován dvěma geny.
Parazit
WormBase ParaSite je subportálem pro přibližně 100 návrhových genomů parazitických hlístů (hlístice a platyhelminthes ) vyvinutý na Evropský bioinformatický institut a Wellcome Trust Sanger Institute.[7] Všechny genomy jsou shromážděny a anotovány. Další informace, jako jsou proteinové domény a Genová ontologie podmínky jsou také k dispozici. Genové stromy umožňují vyrovnání ortologů mezi parazitickými červy, jinými hlísticemi a komparátory jiných druhů. A BioMart nabízí se nástroj pro dolování dat, který umožňuje rozsáhlý přístup k datům.
Správa WormBase
WormBase je spolupráce mezi Evropský bioinformatický institut, Wellcome Trust Sanger Institute, Ontario Institute for Cancer Research, Washingtonská univerzita v St. Louis a Kalifornský technologický institut. Je podporováno z grantu P41-HG002223 z Národní institut zdraví a grant G0701197 z Britská rada pro lékařský výzkum .[8] Caltech provádí biologické ošetření a vyvíjí základní ontologie, EBI provádí sekvenční ošetření a výpočty i vytváření databází, Sanger se primárně podílí na ošetření a zobrazování genomů a genů parazitických hlístic a OICR vyvíjí webové stránky a hlavní nástroje pro dolování dat.
Poznámky a odkazy
- ^ Harris, TW; et al. (12.11.2009). „WormBase: komplexní zdroj pro výzkum hlístic. Nucleic Acids Res. 38 (Problém s databází): D463–7. doi:10.1093 / nar / gkp952. PMC 2808986. PMID 19910365. Citováno 2010-04-26.
- ^ Williams, G. W .; Davis, P. A .; Rogers, A. S .; Bieri, T .; Ozersky, P .; Spieth, J. (2011). „Metody a strategie pro léčbu genové struktury ve WormBase“. Databáze. 2011: baq039. doi:10.1093 / databáze / baq039. PMC 3092607. PMID 21543339.
- ^ A b „WormMart Sunset Period: to be retired 01 Jan 2016“. Blog. WormBase. 13. listopadu 2015.
- ^ „WormMart“. Dolování dat. WormBase.
- ^ "WormMine". Dolování dat. WormBase.
- ^ „WormBase Gene Nomenclature“. Wormbase.
- ^ http://parasite.wormbase.org
- ^ http://www.wormbase.org/wiki/index.php/WormBaseWiki:Copyright
externí odkazy
- WormBase
- WormBase ParaSite
- Web WormBook, společník online učebnice k WormBase.
- Textpresso, vyhledávač C. elegans a další biologické literatury.
- WormBase Wiki
- Poznámky k vydání, podrobnosti o nejnovějším vydání WormBase
- WormBase: lepší software, bohatší obsah Článek o výzkumu nukleových kyselin, který popisuje WormBase (2006).
- WormBase na Cvrlikání