GenBank - GenBank
Obsah | |
---|---|
Popis | Nukleotidové sekvence pro více než 300 000 organismů s podporou bibliografických a biologických anotací. |
Typy dat zajat |
|
Organismy | Všechno |
Kontakt | |
Výzkumné centrum | NCBI |
Primární citace | PMID 21071399 |
Datum vydání | 1982 |
Přístup | |
Datový formát | |
webová stránka | NCBI |
Stáhnout URL | ncbi ftp |
webová služba URL | |
Nástroje | |
Web | VÝBUCH |
Samostatný | VÝBUCH |
Smíšený | |
Licence | Nejasný[1] |
The GenBank sekvenční databáze je otevřený přístup, anotovaná sbírka všech veřejně dostupných nukleotid sekvence a jejich protein překlady. Je vyráběn a udržován Národní centrum pro biotechnologické informace (NCBI; součást Národní institut zdraví v Spojené státy ) jako součást Mezinárodní spolupráce s databází nukleotidových sekvencí (INSDC).
GenBank a její spolupracovníci přijímají sekvence produkované v laboratořích po celém světě od více než 100 000 odlišných organismy. Databáze byla zahájena v roce 1982 uživatelem Walter Goad a Národní laboratoř Los Alamos. GenBank se stala důležitou databází pro výzkum v biologických polích a v posledních letech se rozrostla exponenciální rychlost zdvojnásobením zhruba každých 18 měsíců.[2][3]
Vydání 194, vyrobené v únoru 2013, obsahovalo více než 150 miliard nukleotidových bází ve více než 162 milionech sekvencí.[4] GenBank je postaven na přímém podání z jednotlivých laboratoří, jakož i na hromadném podání z velkého měřítka sekvenování centra.
Podání
Do GenBank lze odeslat pouze původní sekvence. Přímé zadávání se provádí do GenBank pomocí BankIt, což je webový formulář nebo samostatný program pro odesílání, Flitr. Po přijetí odeslání sekvence pracovníci GenBank prozkoumají originalitu dat a přiřadí přístupové číslo pořadí a provádí kontroly zajištění kvality. Příspěvky jsou poté uvolněny do veřejné databáze, kde je lze záznamy vyhledat Entrez nebo ke stažení do FTP. Hromadná podání Expresní značka sekvence (EST), Sekvenčně označený web (STS), Sekvence průzkumu genomu (GSS) a Sekvence genomu s vysokou propustností (HTGS) data jsou nejčastěji poskytována velkými sekvenčními centry. Skupina přímých podání GenBank také zpracovává kompletní sekvence mikrobiálního genomu.
Dějiny
Walter Goad z Skupina teoretické biologie a biofyziky na Národní laboratoř Los Alamos a další založili databázi sekvencí Los Alamos v roce 1979, která vyvrcholila v roce 1982 vytvořením veřejné GenBank.[5] Financování poskytla Národní institut zdraví, Národní vědecká nadace, ministerstvo energetiky a ministerstvo obrany. LANL s firmou spolupracovalo na GenBank Bolt, Beranek a Newman a do konce roku 1983 v něm bylo uloženo více než 2 000 sekvencí.
V polovině 80. let společnost Intelligenetics bioinformatika ve společnosti Stanfordská Univerzita spravoval projekt GenBank ve spolupráci s LANL.[6] Jako jeden z prvních bioinformatika komunitní projekty na internetu, začal projekt GenBank BIOSCI / Zpravodajské skupiny Bionet pro propagaci otevřený přístup komunikace mezi biologickými vědci. V letech 1989 až 1992 přešel projekt GenBank na nově vytvořený Národní centrum pro biotechnologické informace.[7]


Růst

GenBank Poznámky k vydání pro vydání 162.0 (říjen 2007) uvádí, že „od roku 1982 do současnosti se počet základen v GenBank zdvojnásobil přibližně každých 18 měsíců“.[4][8] Ke dni 15. června 2019[Aktualizace], Vydání GenBank 232.0 má 213 383 758 loci, 329 835 282 370 bází, z 213 383 758 hlášených sekvencí.[4]
Databáze GenBank zahrnuje další datové sady, které jsou konstruovány mechanicky ze sběru dat hlavní sekvence, a proto jsou z tohoto počtu vyloučeny.
Organismus | základní páry |
---|---|
Homo sapiens | 1.6310774187×10 10 |
Mus musculus | 9.974977889×10 9 |
Rattus norvegicus | 6.521253272×10 9 |
Bos taurus | 5.386258455×10 9 |
Zea mays | 5.062731057×10 9 |
Sus scrofa | 4.88786186×10 9 |
Danio rerio | 3.120857462×10 9 |
Strongylocentrotus purpuratus | 1.435236534×10 9 |
Macaca mulatta | 1.256203101×10 9 |
Skupina Oryza sativa Japonica | 1.255686573×10 9 |
Nicotiana tabacum | 1.197357811×10 9 |
Xenopus (Silurana) tropicalis | 1.249938611×10 9 |
Drosophila melanogaster | 1.11996522×10 9 |
Pan troglodyty | 1.008323292×10 9 |
Arabidopsis thaliana | 1.144226616×10 9 |
Canis lupus familiaris | 951,238,343 |
Vitis vinifera | 999,010,073 |
Gallus gallus | 899,631,338 |
Glycin max | 906,638,854 |
Triticum aestivum | 898,689,329 |
Neúplná identifikace
Ve veřejných databázích, které lze prohledávat pomocí nástroje National Local for Biotechnology Information Basic Local Alignment Search Tool (NCBI BLAST), chybí peer-reviewed sekvence kmenů typu a sekvence kmenů jiných typů. Na druhou stranu, zatímco komerční databáze potenciálně obsahují vysoce kvalitní filtrovaná data sekvencí, existuje omezený počet referenčních sekvencí.
Papír vydaný v Journal of Clinical Microbiology[10] vyhodnotil 16S rRNA výsledky sekvenování genů analyzované pomocí GenBank ve spojení s dalšími volně dostupnými, veřejně dostupnými, webovými veřejnými databázemi, jako je EzTaxon -e (https://web.archive.org/web/20130928154318/http://eztaxon-e.ezbiocloud.net/ ) a BIBI (https://web.archive.org/web/20151001000357/http://pbil.univ-lyon1.fr/bibi/ ) databáze. Výsledky ukázaly, že analýzy prováděné pomocí GenBank v kombinaci s EzTaxon -e (kappa = 0,79) byly více diskriminační než samotné použití GenBank (kappa = 0,66) nebo jiných databází.
Viz také
- Ensembl
- Referenční databáze lidských proteinů (HPRD)
- Sekvenční analýza
- UniProt
- Seznam sekvenovaných eukaryotických genomů
- Seznam sekvenovaných archaeal genomů
- RefSeq - databáze referenčních sekvencí
- Geniální - zahrnuje nástroj pro odesílání GenBank
- Otevřená vědecká data
Reference
- ^ The stránku ke stažení na UCSC říká „NCBI neklade žádná omezení na použití nebo distribuci dat GenBank. Někteří zadavatelé však mohou nárokovat patent, autorská práva nebo jiná práva duševního vlastnictví ke všem nebo k části údajů, které poskytli. NCBI není v pozici, aby mohla posoudit platnost těchto tvrzení, a proto nemůže poskytnout komentář nebo neomezené povolení týkající se použití, kopírování nebo distribuce informací obsažených v GenBank. “
- ^ Benson D; Karsch-Mizrachi, I .; Lipman, D. J .; Ostell, J .; Wheeler, D. L .; et al. (2008). „GenBank“. Výzkum nukleových kyselin. 36 (Databáze): D25 – D30. doi:10.1093 / nar / gkm929. PMC 2238942. PMID 18073190.
- ^ Benson D; Karsch-Mizrachi, I .; Lipman, D. J .; Ostell, J .; Sayers, E. W .; et al. (2009). „GenBank“. Výzkum nukleových kyselin. 37 (Databáze): D26 – D31. doi:10.1093 / nar / gkn723. PMC 2686462. PMID 18940867.
- ^ A b C „Poznámky k vydání GenBank“. NCBI.
- ^ Hanson, Todd (2000-11-21). „Walter Goad, zakladatel GenBank, umírá“. Newsbulletin: nekrolog. Národní laboratoř Los Alamos.
- ^ Historie LANL GenBank
- ^ Benton D (1990). „Poslední změny v online službě GenBank“. Výzkum nukleových kyselin. 18 (6): 1517–1520. doi:10.1093 / nar / 18.6.1517. PMC 330520. PMID 2326192.
- ^ Benson, D. A .; Cavanaugh, M .; Clark, K .; Karsch-Mizrachi, I .; Lipman, D. J .; Ostell, J .; Sayers, E. W. (2012). „GenBank“. Výzkum nukleových kyselin. 41 (Problém s databází): D36 – D42. doi:10.1093 / nar / gks1195. PMC 3531190. PMID 23193287.
- ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (leden 2011). „GenBank“. Nucleic Acids Res. 39 (Problém s databází): D32–37. doi:10.1093 / nar / gkq1079. PMC 3013681. PMID 21071399.
- ^ Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb a Nam Yong Lee (květen 2012). „Vyhodnocení služeb GenBank, EzTaxon a BIBI pro molekulární identifikaci izolátů klinické krevní kultury, které byly neidentifikovatelné nebo nesprávně identifikovány konvenčními metodami“. J. Clin. Microbiol. 50 (5): 1792–1795. doi:10.1128 / JCM.00081-12. PMC 3347139. PMID 22403421.CS1 maint: používá parametr autoři (odkaz)
Tento článek zahrnujepublic domain materiál z Národní centrum pro biotechnologické informace dokument: „Příručka NCBI“.
externí odkazy
- GenBank
- Příklad záznamu sekvence pro hemoglobin beta
- BankIt
- Flitr - samostatný softwarový nástroj vyvinutý NCBI pro odesílání a aktualizaci záznamů do databáze sekvencí GenBank.
- VYTEPAT - bezplatný open source software pro molekulární biologii
- GenBank, RefSeq, TPA a UniProt: Co je ve jménu?