Evropský archiv nukleotidů - European Nucleotide Archive
![]() | |
---|---|
Obsah | |
Popis | Komplexní archiv nukleotidových sekvencí, anotací a souvisejících dat. |
Typy dat zajat | Nukleotidová sekvence, funkční anotace, sekvenční čtení a řadič informace, vzorek podrobnosti, další související záznamy. |
Organismy | Všechno |
Kontakt | |
Výzkumné centrum | Evropský bioinformatický institut |
Laboratoř | Skupina PANDA |
Primární citace | PMID 20972220 |
Datum vydání | Duben 1982 |
Přístup | |
Datový formát | XML FASTQ Formát EMBL-Bank |
webová stránka | ENA |
Stáhnout URL | Stažení ENA |
webová služba URL | Prohlížeč ENA |
Nástroje | |
Samostatný | Sada nástrojů CRAM |
Smíšený | |
Licence | Neomezený |
The Evropský archiv nukleotidů (ENA) je úložiště poskytující bezplatný a neomezený přístup k anotovaným Sekvence DNA a RNA. Ukládá také doplňkové informace, jako jsou experimentální postupy, podrobnosti o sestava sekvence a další metadata související s sekvenční projekty.[1]Archiv se skládá ze tří hlavních databází: Archiv čtení sekvence, Trace Archive a EMBL Nucleotide Sequence Database (také známá jako EMBL-banka).[2] ENA je vyráběna a udržována Evropský bioinformatický institut a je členem Mezinárodní spolupráce s databází nukleotidových sekvencí (INSDC) spolu s DNA Data Bank of Japan a GenBank.
ENA vyrostla z EMBL Data Library, která byla vydána v roce 1982 jako první mezinárodně podporovaný zdroj pro data nukleotidových sekvencí.[3] Počátkem roku 2012 obsahovala ENA a další členské databáze INSDC kompletní genomy 5 682 organismů a údaje o sekvenci téměř 700 000.[4]Navíc objem dat je exponenciálně roste s dobou zdvojnásobení přibližně 10 měsíců.[5]
Dějiny
Evropský archiv nukleotidů vznikl ze samostatných databází, z nichž nejdříve byla datová knihovna EMBL, založená v říjnu 1980 na Evropská laboratoř molekulární biologie (EMBL), Heidelberg.[3] První vydání tohoto databáze byl vytvořen v dubnu 1982 a obsahoval celkem 568 samostatných záznamů, které se skládaly z přibližně 500 000 základní páry.[6] V roce 1984 Kneale a Kennard s odkazem na EMBL Data Library poznamenali, že „před několika lety bylo jasné, že velká počítačová databáze sekvencí bude nezbytná pro výzkum v molekulární biologii“.[6]

Přes primární distribuční metodu v současné době prostřednictvím magnetická páska, do roku 1987, EMBL Data Library byl používán odhadem 10 000 vědců na mezinárodní úrovni.[7] Ve stejném roce byl zaveden souborový server EMBL, který slouží k poskytování databázových záznamů BITNET, VYDĚLAT a brzy Internet.[8] V květnu 1988 časopis Výzkum nukleových kyselin zavedla zásadu, že „rukopisy předložené [Nucleic Acids Research] a obsahující nebo diskutující o sekvenčních datech musí být doprovázeny důkazy o tom, že data byla uložena v EMBL Data Library.“[9]

V průběhu 90. let byla EMBL Data Library přejmenována na EMBL Nucleotide Sequence Database[10] a byl formálně přemístěn do Evropský bioinformatický institut (EBI) z Heidelbergu.[11] V roce 2003 byla databáze nukleotidových sekvencí rozšířena přidáním archivu verzí sekvencí (SVA), který udržuje záznamy o všech aktuálních a předchozích položkách v databázi.[1] O rok později v červnu 2004 jsou limity maximální délky sekvence pro každý záznam (tehdy 350 kilobáze ) byly odstraněny, což umožnilo uložit celé sekvence genomu jako jednu databáze vstup.[12]
Po absorpci Sangerovo sekvenování, Wellcome Trust Sanger Institute (tehdy známé jako The Sanger Center) začalo katalogizovat čtení sekvencí spolu s kvalitními informacemi v databázi s názvem Trace Archive.[13] Trace Archive podstatně vzrostl s komercializací vysoce výkonných technologií paralelního sekvenování společnostmi, jako je Roche a Illumina.[14]V roce 2008 spojila EBI Trace Archive, EMBL Nucleotide Sequence Database (nyní také známou jako EMBL-Bank)[2] a nově vyvinutý archiv sekvencí (neboli krátkých) čtení (SRA), který tvoří ENA, jehož cílem je poskytnout komplexní nukleotid archiv sekvencí.[13] Jako člen Mezinárodní spolupráce s databází nukleotidových sekvencí ENA si každý den vyměňuje údaje s oběma DNA Data Bank of Japan a GenBank.[15]
Databáze nukleotidových sekvencí EMBL

Databáze nukleotidových sekvencí EMBL (známá také jako EMBL-Bank) je část ENA, která obsahuje vysokou úroveň shromáždění genomu podrobnosti, stejně jako sestavené sekvence a jejich funkční anotace.[12][17] EMBL-Bank přispívá přímým podáním z genomu konsorcia a menší výzkumné skupiny, stejně jako získávání sekvenčních dat spojených s patentové přihlášky.[2][18]
Od vydání 114 (prosinec 2012) obsahuje databáze nukleotidových sekvencí EMBL přibližně 5 × 1011 nukleotidy s nekomprimovanou velikostí souborů 1,6 terabajtů.[16]
Datové třídy
Databáze sekvencí nukleotidů EMBL podporuje řadu dat odvozených z různých zdrojů, mimo jiné včetně:[19]
- Vyjádřené značky sekvence s přidruženými ukázkovými daty.
- Nukleotidová sekvence generovaná z sekvenování celého genomu projekty v různých fázích montáže, včetně kompletních kontigy a anotovanou, plně sestavenou sekvenci.
- Údaje týkající se transkriptomika, jako komplementární DNA, s volitelnou anotací.
- Nové nebo rozšířené anotace existujících kódovací sekvence, například nové verze sekvencí s opravenými Start nebo stop kodony.
Formát EMBL-Bank
Databáze nukleotidových sekvencí EMBL používá a plochý pilník prostý text formát reprezentovat a ukládat data, která se obvykle označují jako formát EMBL-Bank.[20] Formát EMBL-Bank používá jiný syntax k záznamům v DDBJ a GenBank, ačkoli každý formát používá určitou standardizovanou nomenklaturu, například taxonomie jak je definováno v NCBI Databáze taxonů. Každý řádek souboru formátu EMBL je tvořen dvoupísmenným kódem, například AC
označit přístupové číslo a KW
pro seznam klíčových slov relevantních pro záznam; každý záznam končí //
.[20]
Archiv čtení sekvence
ENA provozuje instanci Sequence Read Archive (SRA), archivního úložiště sekvenčních čtení a analýz, které jsou určeny pro veřejné vydání.[23] Původně se jmenoval Archiv krátkých čtení, název byl změněn v očekávání, že budoucí technologie sekvenování budou schopny produkovat delší sekvenční čtení.[24] V současné době archiv přijímá čtení sekvencí generovaných další generací sekvenční platformy jako je analyzátor genomu Illumina a ABI SOLID stejně jako některé odpovídající analýzy a zarovnání.[25] SRA funguje pod vedením Mezinárodní spolupráce s databází nukleotidových sekvencí (INSDC)[23] a je nejrychleji rostoucím úložištěm v ENA.[14]
V roce 2010 tvořil archiv čtení sekvencí přibližně 95% z základní pár údaje dostupné prostřednictvím ENA,[13] zahrnující více než 500 000 000 000 sekvenčních čtení složených z více než 60 bilionů (6 × 1013) základní páry.[23] Téměř polovina těchto údajů byla uložena ve vztahu k Projekt 1000 genomů[23] kde vědci publikovali své sekvenční údaje na SRA v reálný čas.[26] Celkem k září 2010 bylo 65% archivu sekvenčních čtení lidský genomický sekvence, dalších 16% se týká člověka metagenom čte sekvence.[23]
Preferovaný datový formát pro soubory odeslané do SRA je formát BAM, který je schopen ukládat zarovnaná i nezarovnaná čtení.[23] Interně se SRA spoléhá na NCBI SRA Toolkit, který se používá ve všech třech členských databázích INSDC, aby poskytoval flexibilní komprese dat, API přístup a převod do jiných formátů, jako je FASTQ.[22]
Přístup k datům

K datům obsaženým v ENA lze přistupovat ručně nebo programově prostřednictvím REST URL prostřednictvím prohlížeče ENA. Zpočátku omezeno na archiv čtení sekvence,[14] prohlížeč ENA nyní také poskytuje přístup k Trace Archive a EMBL-Bank, což umožňuje načítání souborů v celé řadě formátů včetně XML, HTML, FASTA a FASTQ.[13] Jednotlivé záznamy jsou přístupné pomocí jejich přístupových čísel a další textové dotazy jsou povoleny prostřednictvím EB oko vyhledávač.[13] Dodatečně, sekvenční podobnost vyhledávání na základě implementována pomocí De Bruijn grafy nabídnout jiný způsob načítání záznamů z ENA.[14]
ENA je přístupná prostřednictvím EBI MÝDLO a REST API, která také nabízejí přístup k dalším databázím hostovaným v EBI, jako jsou Ensembl a InterPro.[27]
Úložný prostor
Evropský archiv nukleotidů zpracovává velké objemy dat, což představuje významnou výzvu pro ukládání dat.[5][28] Od roku 2012 požadavky na úložiště ENA nadále zůstávají rostou exponenciálně, s dobou zdvojnásobení přibližně 10 měsíců.[5] Aby bylo možné toto zvýšení zvládnout, ENA selektivně zahodí méně hodnotná data sekvenční platformy a implementuje pokročilé komprese strategií.[23][29] Sada CRAM pro komprese založená na referencích byla vyvinuta, aby pomohla snížit požadavky na úložiště ENA.[5][30]
Financování
V současné době je ENA financována společně Evropská laboratoř molekulární biologie, Evropská komise a Wellcome Trust.[13] Vznikající rámec ELIXIR, koordinovaný ředitelem EBI Janet Thornton, si klade za cíl zajistit udržitelnou evropskou infrastrukturu financování na podporu trvalé dostupnosti přírodní věda databáze jako ENA.[29][31][32]
Viz také
Reference
- ^ A b Cochrane, G .; Akhtar, R .; Aldebert, P .; Althorpe, N .; Baldwin, A .; Bates, K .; Bhattacharyya, S .; Bonfield, J .; Bower, L. (2007). „Priority pro zachycování dat nukleotidů, sekvence a anotace v archivu trasování Ensembl a databázi nukleotidových sekvencí EMBL“. Výzkum nukleových kyselin. 36 (Databáze): D5 – D12. doi:10.1093 / nar / gkm 1018. ISSN 0305-1048. PMC 2238915. PMID 18039715.
- ^ A b C EMBL-EBI. „Databáze nukleotidových sekvencí EMBL“. Citováno 2013-01-08.
- ^ A b Hamm, G. H .; Cameron, G. N. (1986). „Datová knihovna EMBL“. Výzkum nukleových kyselin. 14 (1): 5–9. doi:10.1093 / nar / 14.1.5. PMC 339348. PMID 3945550.
- ^ Cochrane, Guy; Cook, Charles E; Birney, Ewan (2012). „Budoucnost archivace sekvencí DNA“. GigaScience. 1 (1): 2. doi:10.1186 / 2047-217X-1-2. ISSN 2047-217X. PMC 3617450. PMID 23587147.
- ^ A b C d Cochrane, G .; Alako, B .; Uprostřed, C .; Bower, L .; Cerdeno-Tarraga, A .; Cleland, I .; Gibson, R .; Goodgame, N .; Jang, M. (2012). „Tváří v tvář růstu v Evropském archivu nukleotidů“. Výzkum nukleových kyselin. 41 (D1): D30 – D35. doi:10.1093 / nar / gks1175. ISSN 0305-1048. PMC 3531187. PMID 23203883.
- ^ A b Kneale, G .; Kennard, O. (1984). Msgstr "Knihovna dat nukleotidové sekvence EMBL". Transakce s biochemickou společností. 12 (6): 1011–1014. doi:10.1042 / bst0121011. PMID 6530028.
- ^ Cameron, G. N. (1988). „Datová knihovna EMBL“. Výzkum nukleových kyselin. 16 (5): 1865–1867. doi:10.1093 / nar / 16.5.1865. PMC 338182. PMID 3353226.
- ^ Fuchs, R .; Stoehr, P .; Rice, P .; Omond, R .; Cameron, G. (1990). „Nové služby datové knihovny EMBL“. Výzkum nukleových kyselin. 18 (15): 4319–4323. doi:10.1093 / nar / 18.15.4319. PMC 331247. PMID 2388823.
- ^ Kahn, P .; Hazledine, D. (1988). „Nový požadavek NAR na odesílání dat do datové knihovny EMBL: Informace pro autory“. Výzkum nukleových kyselin. 16 (10): I – IV. PMC 336623. PMID 16617480.
- ^ „Co je to Evropský archiv nukleotidů?“. EMBL-EBI. Citováno 2013-01-06.
- ^ Rodriguez-Tomé, P .; Stoehr, P. J .; Cameron, G. N .; Flores, T. P. (1996). „Databáze Evropského institutu pro bioinformatiku (EBI)“. Výzkum nukleových kyselin. 24 (1): 6–12. doi:10.1093 / nar / 24.1.6. PMC 145572. PMID 8594602.
- ^ A b Stoesser, G .; Baker, W; Van Den Broek, A; Garcia-Pastor, M; Kanz, C; Kulíková, T; Leinonen, R; Lin, Q; Lombard, V (2003). „Databáze sekvencí nukleotidů EMBL: hlavní nový vývoj“. Výzkum nukleových kyselin. 31 (1): 17–22. doi:10.1093 / nar / gkg021. ISSN 1362-4962. PMC 165468. PMID 12519939.
- ^ A b C d E F Leinonen R, Akhtar R, Birney E a kol. (Leden 2011). „Evropský archiv nukleotidů“. Nucleic Acids Res. 39 (Problém s databází): D28–31. doi:10.1093 / nar / gkq967. PMC 3013801. PMID 20972220.
- ^ A b C d Leinonen, R .; Akhtar, R .; Birney, E .; Bonfield, J .; Bower, L .; Corbett, M .; Cheng, Y .; Demiralp, F .; Faruque, N. (2009). „Vylepšení služeb v Evropském archivu nukleotidů“. Výzkum nukleových kyselin. 38 (Databáze): D39 – D45. doi:10.1093 / nar / gkp998. ISSN 0305-1048. PMC 2808951. PMID 19906712.
- ^ EMBL-EBI. „O evropském archivu nukleotidů“. Citováno 2013-01-07.
- ^ A b „EMBL Nucleotide Sequence Database: Notes Release“. Poznámky k verzi EMBL-Bank 114. EMBL-EBI. Prosinec 2012. Archivovány od originál dne 02.01.2013. Citováno 2013-01-07.
- ^ Uprostřed, C .; Birney, E .; Bower, L .; Cerdeno-Tarraga, A .; Cheng, Y .; Cleland, I .; Faruque, N .; Gibson, R .; Goodgame, N. (2011). „Hlavní vývoj nástrojů pro podávání návrhů v evropském archivu nukleotidů“. Výzkum nukleových kyselin. 40 (D1): D43 – D47. doi:10.1093 / nar / gkr946. ISSN 0305-1048. PMC 3245037. PMID 22080548.
- ^ Stoesser, G .; Baker, W; Van Den Broek, A; Camon, E; Garcia-Pastor, M; Kanz, C; Kulíková, T; Leinonen, R; Lin, Q (2002). „Databáze nukleotidových sekvencí EMBL“. Výzkum nukleových kyselin. 30 (1): 21–26. doi:10.1093 / nar / 30.1.21. ISSN 1362-4962. PMC 99098. PMID 11752244.
- ^ „Datové třídy EMBL-Bank“. EBML-EBI. 2012. Citováno 2013-01-08.
- ^ A b „Uživatelská příručka EMBL-Bank (vydání 129)“ (Prostý text). EMBL-EBI. Září 2016. Citováno 2016-11-03.
- ^ "Přehled NCBI SRA". NCBI. 1. ledna 2013. Archivovány od originál 8. února 2013. Citováno 2013-01-08.
- ^ A b Kodama, Y .; Shumway, M .; Leinonen, R. (2011). „Archiv přečtených sekvencí: explozivní růst sekvenčních dat“. Výzkum nukleových kyselin. 40 (D1): D54 – D56. doi:10.1093 / nar / gkr854. ISSN 0305-1048. PMC 3245110. PMID 22009675.
- ^ A b C d E F G Leinonen R, Sugawara H, Shumway M (leden 2011). „Archiv čtení sekvence“. Nucleic Acids Res. 39 (Problém s databází): D19–21. doi:10.1093 / nar / gkq1019. PMC 3013647. PMID 21062823.
- ^ Ostell, Jim (2009). „Archiv čtení sekvence NCBI: Základní infrastruktura umožňující“. Bio IT svět. Citováno 2013-01-08.
- ^ „O archivu čtení sekvence NCBI“. NCBI. 8. ledna 2013. Archivovány od originál dne 19. dubna 2013. Citováno 2013-01-10.
- ^ Shumway, M .; Cochrane, G .; Sugawara, H. (2009). „Archivace sekvenčních dat nové generace“. Výzkum nukleových kyselin. 38 (Databáze): D870 – D871. doi:10.1093 / nar / gkp1078. ISSN 0305-1048. PMC 2808927. PMID 19965774.
- ^ Mcwilliam, H .; Valentin, F .; Goujon, M .; Li, W .; Narayanasamy, M .; Martin, J .; Miyar, T .; Lopez, R. (2009). „Webové služby v Evropském institutu pro bioinformatiku - 2009“. Výzkum nukleových kyselin. 37 (Webový server): W6 – W10. doi:10.1093 / nar / gkp302. ISSN 0305-1048. PMC 2703973. PMID 19435877.
- ^ Cochrane, G .; Akhtar, R .; Bonfield, J .; Bower, L .; Demiralp, F .; Faruque, N .; Gibson, R .; Hoad, G .; Hubbard, T. (2009). „Inovace v petabajtovém měřítku v Evropském archivu nukleotidů“. Výzkum nukleových kyselin. 37 (Databáze): D19 – D25. doi:10.1093 / nar / gkn765. ISSN 0305-1048. PMC 2686451. PMID 18978013.
- ^ A b „EMBL-EBI bude i nadále podporovat archiv čtení sekvencí pro nezpracovaná data“ (PDF). Tisková zpráva. EMBL-EBI. 16. února 2011. Archivovány od originál (PDF) dne 15. května 2011. Citováno 2013-01-07.
- ^ Hsi-Yang Fritz, M .; Leinonen, R .; Cochrane, G .; Birney, E. (2011). „Efektivní ukládání dat s vysokou propustností sekvenování DNA pomocí komprese založené na referencích“. Výzkum genomu. 21 (5): 734–740. doi:10.1101 / gr.114819.110. ISSN 1088-9051. PMC 3083090. PMID 21245279.
- ^ „O společnosti ELIXIR“. ELIXÍR. Citováno 2013-01-09.
- ^ Crosswell, Lindsey C .; Thornton, Janet M. (2012). „ELIXIR: distribuovaná infrastruktura pro evropská biologická data“. Trendy v biotechnologii. 30 (5): 241–242. doi:10.1016 / j.tibtech.2012.02.002. ISSN 0167-7799. PMID 22417641.