Projekt databáze genomu Ensembl - Ensembl genome database project
![]() | |
---|---|
Obsah | |
Popis | Ensembl |
Kontakt | |
Výzkumné centrum | |
Primární citace | Yates, et al. (2020)[1] |
Přístup | |
webová stránka | www |
Projekt databáze genomu Ensembl je vědecký projekt na VŠE Evropský bioinformatický institut, který byl zahájen v roce 1999 v reakci na bezprostřední dokončení Projekt lidského genomu.[2] Ensembl si klade za cíl poskytnout centralizovaný zdroj pro genetiky, molekulární biologové a další výzkumníky studující genomy našich vlastních druhů a dalších obratlovců a modelové organismy.[3] Ensembl je jedním z několika dobře známých prohlížeče genomu pro získání genomický informace.
Podobný databáze a prohlížeče najdete na NCBI a University of California, Santa Cruz (UCSC).
Pozadí
Lidský genom se skládá ze tří miliard základní páry, který kóduje přibližně 20 000–25 000 geny. Samotný genom je však málo užitečný, pokud nelze identifikovat umístění a vztahy jednotlivých genů. Jednou z možností je manuální anotace, přičemž tým vědců se pokouší lokalizovat geny pomocí experimentálních dat z vědeckých časopisů a veřejných databází. Je to však pomalý a pečlivý úkol. Alternativou, známou jako automatická anotace, je využití síly počítačů k provedení komplexu porovnávání vzorů z protein na DNA.[Citace je zapotřebí ]
V projektu Ensembl jsou data sekvence přiváděna do systému anotace genů (kolekce softwarových „potrubí“ napsaných v Perl ) který vytváří sadu předpovězených genových lokací a ukládá je do a MySQL databáze pro následnou analýzu a zobrazení. Ensembl zpřístupňuje tyto údaje světovému výzkumnému společenství. Všechna data a kód vytvořený projektem Ensembl jsou k dispozici ke stažení,[4] a je zde také veřejně přístupný databázový server umožňující vzdálený přístup. Web Ensembl navíc poskytuje počítačem generovaná vizuální zobrazení většiny dat.
Postupem času se projekt rozšířil o další druhy (včetně klíčů modelové organismy jako myš, ovocný let a zebrafish ), jakož i širší škálu genomických údajů, včetně genetické variace a regulační funkce. Od dubna 2009 sesterský projekt Genomy souboru, rozšířil rozsah Ensemblu na bezobratlé metazoa, rostliny, houby, bakterie, a protistů, zatímco původní projekt se nadále zaměřuje na obratlovce.
Zobrazení genomových dat

V centru konceptu Ensembl je schopnost automaticky generovat grafické pohledy na srovnání genů a dalších genomových dat proti referenční genom. Ty se zobrazují jako datové stopy a jednotlivé stopy lze zapínat a vypínat, což uživateli umožňuje přizpůsobit zobrazení tak, aby vyhovovalo jejich zájmům výzkumu. Rozhraní také umožňuje uživateli přiblížit oblast nebo se pohybovat po genomu v obou směrech.
Ostatní displeje zobrazují data na různých úrovních rozlišení, od celku karyotypy až po textové reprezentace DNA a aminokyselina sekvence, nebo prezentovat jiné typy zobrazení jako např stromy podobných genů (homology ) u řady druhů. Grafika je doplněna tabulkovými displeji a v mnoha případech lze data exportovat přímo ze stránky v různých standardních formátech souborů, jako jsou FASTA.
Externě vytvořená data lze také přidat na displej nahráním vhodného souboru v jednom z podporovaných formátů, jako je BAM, POSTEL nebo PSL.
Grafika je generována pomocí sady vlastních Perl modulů založených na GD, standardní knihovna grafických displejů Perl.
Alternativní metody přístupu
Kromě svých webových stránek poskytuje Ensembl REST API a Perl API[5] (Application Programming Interface), které modeluje biologické objekty, jako jsou geny a proteiny, což umožňuje jednoduché skripty být zapsán k načtení dat, která vás zajímají. Pro zobrazení dat interně používá webové rozhraní stejné API. Je rozdělena do sekcí, jako je základní API, komparativní API (pro srovnávací genomická data), variační API (pro přístup k SNP, SNV, CNV ..) a funkční genomické API (pro přístup k regulačním datům). Web Ensembl poskytuje rozsáhlé informace o jak nainstalovat a používat API.
Tento software lze použít pro přístup k veřejnosti MySQL vyhnout se nutnosti stahovat obrovské datové sady. Uživatelé se dokonce mohli rozhodnout načíst data z MySQL pomocí přímých dotazů SQL, ale to vyžaduje rozsáhlou znalost aktuálního schématu databáze.
Velké datové sady lze načíst pomocí BioMart nástroj pro dolování dat. Poskytuje webové rozhraní pro stahování datových sad pomocí složitých dotazů.
Poslední je FTP server, který lze použít ke stažení celých databází MySQL i některých vybraných datových sad v jiných formátech.
Aktuální druh
Anotované genomy zahrnují nejvíce plně sekvenované obratlovce a vybrané modelové organismy. Všichni jsou eukaryoty, neexistují žádné prokaryoty. Od roku 2008[Aktualizace], to zahrnuje:
- Chordata
- Mammalia
- Euarchontoglires
- Primáti: bushbaby, šimpanz, člověk, makak, lemur myši, orangutan, nártoun;
- Scandentia: rejska stromu ;
- Glires (= Hlodavci + Lagomorphs): morče, klokan krysa, myš, krysa, sysel, pika, králičí ;
- Laurasiatheria: kráva, delfín, alpaka, prase, kočka, Pes, kůň, megabat, mikrobat, ježek, rejska ;
- Afrotheria: slon, daman, tenrec
- Xenarthra: pásovec, lenochod ;
- Marsupialia: vačice, klokan ;
- Monotremes: ptakopysk;
- Euarchontoglires
- Ptactvo: kuře, zebra finch;
- Lepidosauria: anole ještěrka (pre);
- Lissamphibia: Xenopus tropicalis;
- Teleost Ryby: Takifugu rubripes (fugu ), Tetraodon nigroviridis (puntíkovaný zelený), Danio rerio (zebrafish ), Oryzias latipes (Medaka ), Gasterosteus aculeatus (stickleback );
- Cyclostomata: Petromyzon marinus (mořský mihule ) (před);
- Pláštěnky: Ciona intestinalis, Ciona savignyi;
- Mammalia
- Bezobratlí
- Hmyz: Drosophila melanogaster (ovocný let), Anopheles gambiae (komár), Aedes aegypti (komár)
- Červ: Caenorhabditis elegans
- Droždí: Saccharomyces cerevisiae (pekařské droždí)
Viz také
- Seznam sekvenovaných eukaryotických genomů
- Sekvenční analýza
- Sekvenční profilovací nástroj
- Sekvenční motiv
- UCSC Genome Browser
Reference
- ^ Yates A. D .; et al. (Leden 2020). „Ensembl 2020“. Nucleic Acids Res. 48 (D1): D682 – D688. doi:10.1093 / nar / gkz966. PMC 7145704. PMID 31691826. Citováno 31. července 2020.
- ^ Flicek P, Amode MR, Barrell D a kol. (Listopad 2010). „Ensembl 2011“. Nucleic Acids Res. 39 (Problém s databází): D800 – D806. doi:10.1093 / nar / gkq1064. PMC 3013672. PMID 21045057.
- ^ Flicek P, Aken BL, Ballester B a kol. (Leden 2010). „Ensembl's 10th year“. Nucleic Acids Res. 38 (Problém s databází): D557–62. doi:10.1093 / nar / gkp972. PMC 2808936. PMID 19906699.
- ^ Ruffier, Magali; Kähäri, Andreas; Komorowska, Monika; Keenan, Stephen; Laird, Matthew; Longden, Iane; Proctor, Glenn; Searle, Steve; Staines, Daniel; Taylor, Kieron; Vullo, Alessandro; Yates, Andrew; Zerbino, Daniel; Flicek, Paul (leden 2017). „Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation“. Databáze. 2017 (1): bax020. doi:10.1093 / databáze / bax020. PMC 5467575. PMID 28365736.
- ^ Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (únor 2004). „Základní softwarové knihovny Ensembl“. Výzkum genomu. 14 (5): 929–933. doi:10,1101 / gr.1857204. PMC 479122. PMID 15123588.