Genomy souboru - Ensembl Genomes
Obsah | |
---|---|
Popis | Integrativní zdroj pro data v měřítku genomu od druhů bez obratlovců. |
Typy dat zajat | Genomická databáze |
Organismy | pánev |
Kontakt | |
Výzkumné centrum | Evropský bioinformatický institut |
Primární citace | Kersey a spol. (2012),[1] Howe a spol. (2020)[2] |
Datum vydání | 2009 |
Přístup | |
webová stránka | http://ensemblgenomes.org/ |
Stáhnout URL | ftp://ftp.ensemblgenomes.org/pub/current |
webová služba URL | http://rest.ensembl.org/ |
Veřejnost SQL přístup | [email protected]: 4157 |
Smíšený | |
Licence | Apache 2.0 |
Uvolnění dat frekvence | 4krát ročně |
Verze | Vydání 47 (duben 2020) |
Genomy souboru je vědecký projekt poskytující údaje v měřítku genomu od druhů bez obratlovců.[1][2]
Projekt provozuje Evropský bioinformatický institut, a byla zahájena v roce 2009 pomocí Ensembl technologie.[3] Hlavním cílem databáze Ensembl Genomes je doplnit hlavní Ensembldatabase zavedením pěti dalších webových stránek, které obsahují genomová data pro bakterie, houby bezobratlých metazoa, rostliny, a protistů.[4] Pro každou z domén Ensembl jsou k dispozici nástroje pro manipulaci, analýzu a vizualizaci dat genomu. Většina dat Ensembl Genomes je uložena v relačních databázích MySQL a lze k nim přistupovat pomocí rozhraní Ensembl REST, Perl API, Biomart nebo online.[5]
Ensembl Genomes je otevřený projekt a většina kódu, nástrojů a dat je k dispozici veřejnosti.[6] Software Ensembl a Ensembl Genomes používá licenci Apache 2.0[7] licence.
Zobrazení genomových dat
Klíčovou vlastností Ensembl Genomes je jeho grafické rozhraní, které umožňuje uživatelům procházet a genom a sledovat relativní umístění prvků, jako jsou koncepční anotace (např. geny, SNP loci), sekvenční vzory (např. repetice) a experimentální data (např. sekvence a funkce vnější sekvence mapované na genom ).[1] K dispozici jsou grafická zobrazení pro různé úrovně rozlišení z jednoho celku karyotyp, až do sekvence jednoho exon. Informace pro a genom je rozloženo na čtyři karty, stránka s druhy, karta „Místo“, „Gen „Karta a„Přepis “, Kde každá poskytuje informace ve vyšším rozlišení.
Hledání konkrétního druhu pomocí Ensembl Genomes přesměruje na stránku s druhy. Často je uveden stručný popis druhu a odkazy na další informace a statistiky o genom, grafické rozhraní a některé dostupné nástroje.
A karyotyp je k dispozici pro některé druhy v Ensembl Genomes.[8] Pokud je karyotyp k dispozici, bude na něj odkaz v sekci Gene Assembly na stránce s druhy. Pokud se uživatelé nacházejí na kartě „Místo“, mohou také zobrazit karyotyp výběrem „Celý genom“ v nabídce vlevo. Uživatelé mohou kliknout na místo v karyotypu a přiblížit tak jeden konkrétní chromozom nebo genomovou oblast.[8] Otevře se karta „Poloha“.
Na kartě „Umístění“ mohou uživatelé procházet geny, variace, zachování sekvence a další typy anotace podél genom.[9] „Oblast podrobně“ je vysoce konfigurovatelná a škálovatelná a uživatelé si mohou vybrat, co chtějí vidět, kliknutím na tlačítko „Konfigurovat tuto stránku“ v dolní části nabídky vlevo. Přidáním a odebráním skladeb si uživatelé budou moci vybrat typ dat, který chtějí mít na displejích.[9] Data z následujících kategorií lze snadno přidat nebo odebrat z tohoto zobrazení záložky „Umístění“:Sekvence a shromáždění ', 'Geny a přepisy ', 'mRNA a protein zarovnání "," Jiné DNA zarovnání ', 'Germline variace ','Srovnávací genomika ', mezi ostatními.[9] Uživatelé mohou také změnit možnosti zobrazení, například šířku.[9] Další možnost umožňuje uživatelům obnovit konfiguraci zpět na výchozí nastavení.[9]
Přesnější informace o výběru gen najdete na kartě „Gen“. Uživatelé se na tuto stránku mohou dostat hledáním požadovaného genu ve vyhledávací liště a kliknutím na ID genu nebo kliknutím na jeden z genů zobrazených v zobrazení karty „Umístění“. Záložka „Gen“ obsahuje informace specifické pro geny, jako je genová struktura, počet přepisy, poloha na chromozóm a homologie informace ve formě genových stromů.[10] K těmto informacím lze přistupovat prostřednictvím nabídky na levé straně.
Karta „Přepis“ se také zobrazí, když se uživatel rozhodne zobrazit gen. Karta „Přepis“ obsahuje mnoho stejných informací jako karta „Gen“, je však zaměřena pouze na jeden přepis.[10]
Nástroje
Přidávání vlastních stop do Ensembl Genomes
Ensembl Genomes umožňuje porovnávat a vizualizovat uživatelská data při procházení karyotypů a genů. Většina zobrazení Ensembl Genomes obsahuje tlačítko „Přidat data“ nebo „Spravovat data“, které uživateli umožní nahrát nové stopy obsahující čtení nebo sekvence do Ensembl Genomes nebo upravit data, která byla dříve nahrána.[11] Nahraná data lze vizualizovat v zobrazeních regionu nebo v celém karyotypu. Nahraná data lze lokalizovat pomocí chromosomových souřadnic nebo klonových souřadnic BAC.[12]K nahrání datového souboru na libovolnou stránku Ensembl Genomes lze použít následující metody:[13]
- Soubory menší než 5 MB lze buď nahrát přímo z libovolného počítače, nebo z webového umístění (URL) na servery Ensembl.
- Sázkové soubory lze nahrávat pouze z webových umístění (URL).
- Soubory BAM lze nahrávat pouze pomocí přístupu založeného na URL. Soubor indexu (.bam.bai) by měl být umístěn na stejném webovém serveru.
- Zdroj distribuovaného systému poznámek lze připojit z webových umístění.
Ensembl Genomes podporuje následující typy souborů:[14]
- POSTEL
- BedGraph
- Obecný
- GFF / GTF
- PSL
- PARUKA
- BAM
- Velká postel
- Velké zvíře
- VCF
Data se dočasně nahrávají na servery. Registrovaní uživatelé se mohou přihlásit a uložit svá data pro budoucí použití. Je možné sdílet a přistupovat k nahraným datům pomocí a přiřazené adresy URL.[15] Uživatelé mohou také smazat své vlastní stopy z Ensembl Genomes.
BioMart
BioMart je programovací bezplatný vyhledávač začleněný do Ensembl a Ensembl Genomes (kromě Ensembl Bacteria) za účelem těžby a extrakce genomových dat z databází Ensembl v tabulkových formátech jako HTML, TSV, CSV nebo XLS.[16] Release 45 (2019) Ensembl Genomes má na BioMarts k dispozici následující data:
- Ensembl Protists BioMart: zahrnuje 33 druhů a variace pro Phytophthora infestans a Phaeodactylum tricornutum[17]
- Ensembl Fungi BioMart: zahrnuje 56 druhů a variací pro Fusarium graminearum, Fusarium oxysporum, Schizosaccharomyces pombe, Puccinia graminis, Verticillium dahliae, Zymoseptoria tritici, a Saccharomyces cerevisiae[18]
- Ensembl Metazoa BioMart: zahrnuje 78 druhů a variací pro Aedes aegypti, Anopheles gambiae a Ixodes scapularis[19]
- Ensembl Plants: zahrnuje 67 druhů a variací pro Arabidopsis thaliana, Brachypodium distachyon, Hordeum vulgare, Oryza glaberrima, Oryza glumipatula, Oryoza sativa indica, Oryza sativa japonica, Solanum lycopersicum, Čirok bicolor, Triticum aestivum, Vitis vinifera, a Zea mays[20]
Účelem BioMarts v Ensembl Genomes je umožnit uživateli těžit a stahovat tabulky obsahující všechny geny pro jeden druh, geny ve specifické oblasti chromozomu nebo geny v jedné oblasti chromozomu spojené s doménou InterPro.[21] BioMarts také obsahují filtry k upřesnění dat, která mají být extrahována, a uživatel může vybrat atributy (ID varianty, název chromozomu, ID souboru, umístění atd.), Které se objeví v souboru finální tabulky.
K BioMarts lze přistupovat online v každé odpovídající doméně Ensembl Genomes nebo lze zdrojový kód nainstalovat v prostředí UNIX z BioMart sakra úložiště[22]
VÝBUCH
A VÝBUCH je k dispozici rozhraní umožňující uživatelům vyhledávat DNA nebo proteinové sekvence proti Ensemble Genomes. Lze k němu přistupovat pomocí záhlaví, které se nachází v horní části všech stránek Ensembl Genome s názvem VÝBUCH. The VÝBUCH vyhledávání lze nakonfigurovat tak, aby vyhledávalo jednotlivé druhy nebo sbírky druhů (maximálně 25). Tady je taxonomické prohlížeč umožňující výběr taxonomicky příbuzných druhů.[23]
Sekvenční vyhledávání
Ensembl Genomes poskytuje druhý nástroj pro vyhledávání sekvencí, který používá algoritmus založený na osvobození, který poskytuje Evropský archiv nukleotidů.[23] K tomuto nástroji lze přistupovat pomocí záhlaví umístěného v horní části všech stránek Ensembl Genome s názvem Hledání sekvence. Uživatelé si pak mohou vybrat, zda by chtěli Exonerate hledat proti všem druhům v divizi Ensembl Genomes nebo proti všem druhům v Ensembl Genomes. Mohou také zvolit „maximální hodnotu E“, což omezí výsledky, které se zobrazí těm, jejichž hodnoty E jsou pod maximální hodnotou. Nakonec se uživatelé mohou rozhodnout použít alternativní režim vyhledávání výběrem možnosti „Použít spojený dotaz“.
Variant Effect Predictor
Variant Effect Predictor je jedním z nejpoužívanějších nástrojů v Ensembl a Ensembl Genomes. Umožňuje prozkoumat a analyzovat, jaký účinek mají varianty (SNP, CNV, indely nebo strukturní variace) na konkrétní gen, sekvenci, protein, transkript nebo transkripční faktor.[24] Chcete-li použít VEP, uživatelé musí zadat umístění svých variant a variace nukleotidů, aby vygenerovali následující výsledky:[25]
- Geny a přepisy ovlivněné variantou
- Umístění variant
- Jak varianta ovlivňuje syntézu bílkovin (např. Generování stop kodonu)
- Porovnáním s jinými databázemi najdete stejné známé varianty
Uživatelé mohou k VEP přistupovat dvěma způsoby. První formulář je online. Na této stránce uživatel vygeneruje vstup výběrem následujících parametrů:[26]
- Druhy, které mají být porovnány. Výchozí databáze pro srovnání je Ensembl Transcripts, ale u některých druhů lze vybrat jiné zdroje.
- Název nahraných dat (je volitelný, ale usnadní identifikaci dat, pokud bylo provedeno mnoho úloh VEP)
- Výběr vstupního formátu pro data. Pokud je zvolen nesprávný formát souboru, VEP při spuštění vyvolá chybu.
- Pole pro nahrávání dat. Uživatelé mohou nahrávat data ze svých počítačů, z umístění založeného na URL nebo přímým kopírováním jejich obsahu do textového pole.
Nahrávání dat do VEP podporuje VCF, pileup, notace HGVS a výchozí formát.[27] Výchozí formát je soubor oddělený mezerami, který obsahuje data ve sloupcích. Prvních pět sloupců označuje chromozom, počáteční umístění, konečné umístění, alelu (pár alel oddělených znakem '/', s referenční alelou první) a vlákno (+ pro dopředu nebo - pro zpět).[28] Šestý sloupec je identifikátor variace a je volitelný. Pokud je ponecháno prázdné, VEP přiřadí identifikátor výstupnímu souboru.
VEP také poskytuje uživatelům další možnosti identifikátorů, další možnosti pro doplnění výstupu a filtrování.[29] Možnosti filtrování umožňují funkce, jako je odstranění známých variant z výsledků, vrácení variant pouze v exonech a omezení výsledků na konkrétní důsledky variant.[30]
Uživatelé VEP mají také možnost prohlížení a manipulace se všemi úlohami spojenými s jejich relací procházením karty „Poslední lístky“. Na této kartě mohou uživatelé zobrazit stav svého vyhledávání (úspěšné, zařazené do fronty, spuštěné nebo neúspěšné) a ukládat, mazat nebo znovu odesílat úlohy.[31]
Druhou možností použití VEP je stažení zdrojového kódu pro jeho použití v prostředích UNIX.[32] Všechny funkce jsou stejné mezi online verzí a verzí skriptu. VEP lze také použít s online instancemi, jako je Galaxy.
Po dokončení úlohy VEP je výstupem tabulkový soubor, který obsahuje následující sloupce:[33]
- Nahraná variace - jako chromosome_start_alleles
- Umístění - ve standardním formátu souřadnic (chr: start nebo chr: start-end)
- Alela - variantní alela použitá k výpočtu následku
- Gene - Enbembl stabilní ID postiženého genu
- Funkce - Zajistěte stabilní ID funkce
- Typ prvku - typ prvku. V současné době jeden z Transcript, RegulatoryFeature, MotifFeature.
- Důsledek - typ následku této variace
- Pozice v cDNA - relativní poloha páru bází v sekvenci cDNA
- Pozice v CDS - relativní poloha páru bází v kódovací sekvenci
- Pozice v proteinu - relativní poloha aminokyseliny v proteinu
- Změna aminokyselin - pouze v případě, že změna ovlivňuje sekvenci kódující protein
- Změna kodónu - alternativní kodony s variantní základnou velkými písmeny
- Varianta umístěná společně - známý identifikátor existující varianty
- Extra - tento sloupec obsahuje další informace jako páry klíč = hodnota oddělené znakem „;“. Zobrazí další identifikátory.
Mezi další běžné výstupní formáty pro VEP patří JSON a formáty VDF.[34]
Programový přístup k datům
Rozhraní Ensemble Genomes [REST] umožňuje přístup k datům pomocí vašeho oblíbeného programovacího jazyka.
K datům můžete také přistupovat pomocí Perl API a Biomart.
Aktuální druh
Ensembl Genomes se nepokouší zahrnout všechny možné genomy, spíše se jedná o genomy, které jsou považovány za vědecky důležité.[35] Každá stránka obsahuje následující počet druhů:
- Bakteriální rozdělení Ensemblu nyní obsahuje všechny bakteriální genomy, které byly kompletně sekvenovány, anotovány a předloženy Mezinárodní spolupráce s databází nukleotidových sekvencí (Evropský archiv nukleotidů, GenBank a japonská databáze DNA).[35] Aktuální datový soubor obsahuje 44 048 genomů.[36]
- Ensembl Fungi obsahuje 1014 genomů[37]
- Ensembl Metazoa obsahuje 78 genomů pro bezobratlý druh.[38] Hlavní stránka Ensembl obsahuje 236 genomů pro obratlovců druh.[39]
- Ensembl Plants obsahuje 67 genomů[40]
- Ensembl Protists obsahuje 237 genomů[41]
Spolupráce
Ensembl Genomes neustále rozšiřuje data anotací prostřednictvím spolupráce s dalšími organizacemi zapojenými do projektů anomací genomu a výzkumu. Následující organizace jsou spolupracovníky Ensembl Genomes:[42]
- AllBio
- Ječmen
- Culicoides sonorensis
- Gramen
- INFRAVEC
- Microme
- PomBase
- PhytoPath
- transplantace
- Triticeae Genomics pro udržitelné zemědělství
- VectorBase
- Genomické zlepšení pšeničné rezu
- WormBase
- WormBase ParaSite
Viz také
- Ensembl
- Evropský bioinformatický institut
- VÝBUCH
- BLAT
- WormBase
- VectorBase
- Seznam sekvenovaných rostlinných genomů
- Seznam sekvenovaných bakteriálních genomů
- Seznam sekvenovaných protistických genomů
- Seznam sekvenovaných genomů hub
- Seznam sekvenovaných archaeal genomů
- Sekvenční analýza
- Strukturální variace
externí odkazy
- Genomy souboru
- Dokumentace genomů souboru
- Ensembl
- Domovská stránka EBI
- Právní oznámení společnosti Ensemble Genomes
- Domovská stránka Biomart
Reference
- ^ A b C Kersey, P. J .; Staines, D. M .; Lawson, D .; Kulesha, E .; Derwent, P .; Humphrey, J. C .; Hughes, D. S. T .; Keenan, S .; Kerhornou, A .; Koscielny, G .; Langridge, N .; McDowall, M. D .; Megy, K .; Maheswari, U .; Nuhn, M .; Paulini, M .; Pedro, H .; Toneva, I .; Wilson, D .; Yates, A .; Birney, E. (2011). „Ensemble Genomes: Integrative resource for genome-scale data from non-verte species“. Výzkum nukleových kyselin. 40 (Problém s databází): D91 – D97. doi:10.1093 / nar / gkr895. PMC 3245118. PMID 22067447.
- ^ A b Howe KL, Contreras-Moreira B, De Silva N, Maslen G, Akanni W, Allen J, Alvarez-Jarreta J, Barba M, Bolser DM, Cambel L, Carbajo M, Chakiachvili M, Christensen M, Cummins C, Cuzick A, Davis P, Fexova S, Gall A, George N, Gil L, Gupta P, Hammond-Kosack KE, Haskell E, Hunt S, Jaiswal P, Janacek S, Kersey PJ, Langridge N, Maheswari U, Maurel T, McDowall MD, Moore B, Muffato M, Naamati G, Naithani S, Olson A, Papatheodorou I, Patricio M, Paulini M, Pedro H, Perry E, Preece J, Rosello M, Russell M, Sitnik V, Staines DM, Stein J, Tello- Ruiz MK, Trevanion SJ, Urban M, Wei S, Ware D, Williams G, Yates AD, Flicek P (leden 2020). „Ensembl Genomes 2020 - umožňující genomický výzkum bez obratlovců“. Výzkum nukleových kyselin. 48 (D1). doi:10.1093 / nar / gkz890.
- ^ Hubbard, T. J. P .; Aken, B.L .; Ayling, S .; Ballester, B .; Beal, K .; Bragin, E .; Brent, S .; Chen, Y .; Clapham, P .; Clarke, L .; Coates, G .; Fairley, S .; Fitzgerald, S .; Fernandez-Banet, J .; Gordon, L .; Graf, S .; Haider, S .; Hammond, M .; Holland, R .; Howe, K .; Jenkinson, A .; Johnson, N .; Kahari, A .; Keefe, D .; Keenan, S .; Kinsella, R .; Kokocinski, F .; Kulesha, E .; Lawson, D .; Longden, I. (2009). „Ensembl 2009“. Výzkum nukleových kyselin. 37 (Problém s databází): D690 – D697. doi:10.1093 / nar / gkn828. PMC 2686571. PMID 19033362.
- ^ „About Ensembl Genomes“. Genomy souboru. Ensembl. Citováno 2. září 2014.
- ^ „Ensembl Genomes MySQL“. ensemblgenomes.org. Genomy souboru. Citováno 11. září 2014.
- ^ Kinsella, Rhoda J .; Kähäri, Andreas; Syed, Haider; Zamora, Jorge; Proctor, Glenn; Spudich, Giulietta; Almeida-King, Jeff; Staines, Daniel; Derwent, Paul; Kerhournou, Arnaud; Kersey, Paul; Flicek, Paul (2011). „Ensembl BioMarts: rozbočovač pro získávání dat napříč taxonomickým prostorem“. Databáze. 2011 (2011): 2. doi:10.1093 / databáze / bar030. PMC 3170168. PMID 21785142.
- ^ „Softwarová licence“. Ensembl. Citováno 9. června 2020.
- ^ A b „Celý genom“. Genomy souboru. Citováno 7. září 2014.
- ^ A b C d E "Často kladené otázky". Genomy souboru. Citováno 7. září 2014.
- ^ A b Spudich, G; Fernández-Suárez, X. M .; Birney, E (2007). „Procházení genomu pomocí Ensembl: praktický přehled“. Briefings in Functional Genomics and Proteomics. 6 (3): 202–19. doi:10.1093 / bfgp / elm025. PMID 17967807.
- ^ „Nahrávání vašich dat do souboru Ensembl“. Genomy souboru. Genomy souboru. Citováno 9. září 2014.
- ^ „Coordinates for data location in Ensembl Genomes“. Genomy souboru. Genomy souboru. Citováno 9. září 2014.
- ^ „Metody pro nahrávání dat“. Rostliny souboru. Genomy souboru. Citováno 9. září 2014.
- ^ "Podporované datové soubory". Rostliny souboru. Genomy souboru. Citováno 9. září 2014.
- ^ „Ukládání a sdílení dat v genech souborů“. Rostliny souboru. Genomy souboru.
- ^ „Data Mining in Ensembl with Data Mining in Ensembl with BioMart“ (PDF). Ensembl. 2014. s. 2. Citováno 11. září 2014.
- ^ „Ensemble Protists“. Ensemble Protists. Genomy souboru. Citováno 1. října 2019.
- ^ "Ensembl Fungi". Ensembl Fungi. Genomy souboru. Citováno 1. října 2019.
- ^ "Ensembl Metazoa". Ensemble Metazoa. Genomy souboru. Citováno 1. října 2019.
- ^ „Rostliny souboru“. Rostliny souboru. Genomy souboru. Citováno 1. října 2019.
- ^ „Data Mining in Ensembl with Data Mining in Ensembl with BioMart“ (PDF). Ensembl. 2014. s. 3. Citováno 11. září 2014.
- ^ „Uživatelská příručka BioMart 0.9.0“ (PDF). Května 2014. str. 5. Citováno 11. září 2014.
- ^ A b "Často kladené otázky". Genomy souboru. Archivovány od originál dne 10. září 2014. Citováno 11. září 2014.
- ^ „Variant Effect Predictor“. ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ „Přehled výsledků Variant Effect Predictor“. ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ "Vstup dat do VEP". ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ „VEP podporované formáty souborů“. ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ "Výchozí soubor VEP". ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ „Možnosti a doplňky VEP“. ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ „Filtrování VEP“. ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ „Úlohy VEP“. ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ „Stažení skriptu VEP“. ensembl.org. Ensembl. Citováno 11. září 2014.
- ^ "Výstup VEP". ensembl.org. Genomy souboru. Citováno 11. září 2014.
- ^ "Výstupní formáty VEP". ensembl.org. Genomy souboru. Citováno 11. září 2014.
- ^ A b Kersey, P. J .; Allen, J. E .; Christensen, M; Davis, P; Falin, L. J .; Grabmueller, C; Hughes, D. S .; Humphrey, J; Kerhornou, A; Khobova, J; Langridge, N; McDowall, M. D .; Maheswari, U; Maslen, G; Nuhn, M; Ong, C. K .; Paulini, M; Pedro, H; Toneva, já; Tuli, M. A .; Walts, B; Williams, G; Wilson, D; Youens-Clark, K; Monaco, M. K .; Stein, J; Wei, X; Ware, D; Bolser, D. M .; et al. (2014). „Ensembl Genomes 2013: Šíření přístupu k údajům o celém genomu“. Výzkum nukleových kyselin. 42 (Problém s databází): D546–52. doi:10.1093 / nar / gkt979. PMC 3965094. PMID 24163254.
- ^ "Seznam druhů". Genomy souboru. Citováno 1. října 2019.
- ^ "Seznam druhů". Genomy souboru. Citováno 1. října 2019.
- ^ "Seznam druhů". Genomy souboru. Citováno 1. října 2019.
- ^ "Seznam druhů". Genomy souboru. Citováno 1. října 2019.
- ^ "Seznam druhů". Genomy souboru. Citováno 1. října 2019.
- ^ "Seznam druhů". Genomy souboru. Citováno 1. října 2019.
- ^ „Spolupracovníci - genomy souboru“. Genomy souboru. Genomy souboru. Citováno 3. září 2014.