UniProt - UniProt
![]() | |
---|---|
Obsah | |
Popis | UniProt je Universální Protein resource, centrální úložiště protein data vytvořená kombinací Swiss-Prot, TrEMBL a PIR-PSD databáze. |
Typy dat zajat | Anotace proteinu |
Organismy | Všechno |
Kontakt | |
Výzkumné centrum | EMBL-EBI, SPOJENÉ KRÁLOVSTVÍ; SIB, Švýcarsko; PIR, USA. |
Primární citace | Konsorcium UniProt[1] |
Přístup | |
Datový formát | Vlastní plochý pilník, FASTA, GFF, RDF, XML. |
webová stránka | www www |
Stáhnout URL | www |
webová služba URL | Ano - JÁVA API viz informace tady & ZBYTEK viz informace tady |
Nástroje | |
Web | Pokročilé vyhledávání, VÝBUCH, Clustal O, hromadné načítání / stahování, mapování ID |
Smíšený | |
Licence | Creative Commons Attribution-NoDerivs |
Správa verzí | Ano |
Uvolnění dat frekvence | 8 týdnů |
Kurátorská politika | Ano - manuální a automatické. Pravidla pro automatickou anotaci generovanou kurátory databáze a výpočetními algoritmy. |
Bookmarkable subjekty | Ano - jak jednotlivé položky proteinů, tak vyhledávání |
UniProt je volně přístupná databáze proteinová sekvence a funkční informace, z nichž je odvozeno mnoho záznamů projekty sekvenování genomu. Obsahuje velké množství informací o biologické funkci proteinů odvozených z výzkumné literatury. Udržuje jej konsorcium UniProt, které se skládá z několika evropských bioinformatika organizace a nadace od Washington DC, Spojené státy.
Konsorcium UniProt
Konsorcium UniProt zahrnuje: Evropský bioinformatický institut (EBI) Švýcarský institut pro bioinformatiku (SIB) a Zdroj informací o bílkovinách (PIR). EBI se sídlem v Wellcome Trust Genome Campus v Hinxtonu ve Velké Británii hostí velký zdroj bioinformatických databází a služeb. SIB se sídlem v Ženevě ve Švýcarsku udržuje EXPASY (Expert Protein Analysis System) servery, které jsou centrálním zdrojem pro proteomické nástroje a databáze. PIR, pořádaný National Biomedical Research Foundation (NBRF) v Georgetown University Medical Center ve Washingtonu, DC, USA, je dědicem nejstarší databáze proteinových sekvencí, Margaret Dayhoff Atlas sekvence a struktury proteinů, poprvé publikován v roce 1965.[2] V roce 2002 spojily EBI, SIB a PIR své síly jako konsorcium UniProt.[3]
Kořeny databází UniProt
Každý člen konsorcia je silně zapojen do údržby a anotace databáze proteinů. Až donedávna EBI a SIB společně vyráběly databáze Swiss-Prot a TrEMBL, zatímco PIR produkovala Protein Sequence Database (PIR-PSD).[4][5][6] Tyto databáze koexistovaly s různými proteinová sekvence priority pokrytí a anotací.
Swiss-Prot vytvořil v roce 1986 Amos Bairoch během jeho PhD a vyvinutý Švýcarský institut pro bioinformatiku a následně vyvinutý společností Rolf Apweiler na Evropský bioinformatický institut.[7][8][9] Cílem Swiss-Prot bylo poskytnout spolehlivé proteinové sekvence spojené s vysokou úrovní anotací (jako je například popis funkce proteinu, jeho doména struktura, posttranslační úpravy, varianty atd.), minimální úroveň nadbytek a vysoká úroveň integrace s jinými databázemi. Vzhledem k tomu, že data sekvence byla generována tempem převyšujícím schopnost Swiss-Prot držet krok, byla vytvořena TrEMBL (Translated EMBL Nucleotide Sequence Data Library), aby poskytla automatizované anotace pro ty proteiny, které nejsou ve Swiss-Prot. Mezitím PIR udržovala PIR-PSD a související databáze, včetně iProClass, databáze proteinových sekvencí a vybraných rodin.
Členové konsorcia spojili své překrývající se zdroje a odborné znalosti a UniProt zahájili v prosinci 2003.[10]
Organizace databází UniProt
UniProt poskytuje čtyři základní databáze: UniProtKB (s dílčími částmi Swiss-Prot a TrEMBL), UniParc, UniRef.
UniProtKB
UniProt Knowledgebase (UniProtKB) je databáze proteinů částečně kurátorská, skládající se ze dvou částí: UniProtKB / Swiss-Prot (obsahující zkontrolované, ručně anotované položky) a UniProtKB / TrEMBL (obsahující nezkontrolované, automaticky anotované položky).[11] Ke dni 19. března 2014[Aktualizace]vydání „2014_03“ UniProtKB / Swiss-Prot obsahuje 542 782 položek sekvence (obsahuje 193 019 802 aminokyselin odvozených z 226 896 odkazů) a vydání „2014_03“ UniProtKB / TrEMBL obsahuje 54 247 468 položek sekvence (obsahuje 17 207 833 179 aminokyselin).[12][13]
UniProtKB / Swiss-Prot
UniProtKB / Swiss-Prot je ručně anotovaná, neredundantní databáze proteinových sekvencí. Kombinuje informace získané z vědecké literatury a biokurátor - vyhodnocená výpočetní analýza. Cílem UniProtKB / Swiss-Prot je poskytnout všechny známé relevantní informace o konkrétním proteinu. Anotace jsou pravidelně revidovány, aby drželi krok s aktuálními vědeckými poznatky. Ruční anotace záznamu zahrnuje podrobnou analýzu proteinové sekvence a vědecké literatury.[14]
Sekvence ze stejného gen a totéž druh jsou sloučeny do stejné položky databáze. Rozdíly mezi sekvencemi jsou identifikovány a jejich příčina dokumentována (například alternativní sestřih, přirozená variace, nesprávné zahájení stránky, nesprávné exon hranice, posuny rámů, neidentifikované konflikty). V anotaci položek UniProtKB / Swiss-Prot se používá řada nástrojů pro sekvenční analýzu. Počítačové předpovědi se vyhodnocují ručně a pro zařazení do záznamu se vyberou relevantní výsledky. Tyto předpovědi zahrnují posttranslační úpravy, transmembránové domény a topologie, signální peptidy, identifikace domény a rodina bílkovin klasifikace.[14][15]
Relevantní publikace jsou identifikovány prohledáním databází jako např PubMed. Přečte se celý text každého příspěvku a informace se extrahují a přidají k záznamu. Anotace vycházející z vědecké literatury zahrnuje mimo jiné:[10][14][15]
- Názvy proteinů a genů
- Funkce
- Enzym - konkrétní informace, jako je katalytická aktivita, kofaktory a katalytické zbytky
- Subcelulární umístění
- Interakce protein-protein
- Vzor výrazu
- Umístění a role významných domén a webů
- Ion -, Podklad - a místa vázající kofaktory
- Proteinové variantní formy produkované přirozenou genetickou variací, Úpravy RNA, alternativní sestřih, proteolytický zpracování a posttranslační úpravy
Komentované položky procházejí před zařazením do UniProtKB / Swiss-Prot zajištěním kvality. Jakmile budou k dispozici nová data, položky se aktualizují.
UniProtKB / TrEMBL
UniProtKB / TrEMBL obsahuje vysoce kvalitní výpočtově analyzované záznamy, které jsou obohaceny o automatickou anotaci. Byl představen v reakci na zvýšený tok dat vyplývající z genomových projektů, protože proces manuální anotace náročné na čas a práci UniProtKB / Swiss-Prot nelze rozšířit tak, aby zahrnoval všechny dostupné proteinové sekvence.[10] Překlady anotovaných kódujících sekvencí v Databáze nukleotidových sekvencí EMBL-Bank / GenBank / DDBJ jsou automaticky zpracovávány a zadávány do UniProtKB / TrEMBL. UniProtKB / TrEMBL obsahuje také sekvence z PDB a z predikce genů, včetně Ensembl, RefSeq a CCDS.[16]
UniParc
Archiv UniProt (UniParc) je komplexní a neredundantní databáze, která obsahuje všechny proteinové sekvence z hlavních veřejně dostupných databází proteinových sekvencí.[17] Proteiny mohou existovat v několika různých zdrojových databázích a ve více kopiích ve stejné databázi. Aby se zabránilo redundanci, UniParc ukládá každou jedinečnou sekvenci pouze jednou. Identické sekvence jsou sloučeny, bez ohledu na to, zda pocházejí ze stejného nebo odlišného druhu. Každá sekvence má stabilní a jedinečný identifikátor (UPI), což umožňuje identifikovat stejný protein z různých zdrojových databází. UniParc obsahuje pouze proteinové sekvence bez anotací. Křížové odkazy na databáze v položkách UniParc umožňují získání dalších informací o proteinu ze zdrojových databází. Když se změní sekvence ve zdrojových databázích, jsou tyto změny sledovány UniParcem a historie všech změn je archivována.
Zdrojové databáze
V současné době UniParc obsahuje proteinové sekvence z následujících veřejně dostupných databází:
- INSDC EMBL -Banka/DDBJ /GenBank databáze nukleotidových sekvencí
- Ensembl
- Evropský patentový úřad (EPO)
- FlyBase: primární úložiště genetických a molekulárních dat pro rodinu hmyzu Drosophilidae (FlyBase)
- H-Invitational Database (H-Inv)
- Mezinárodní index bílkovin (IPI)
- Japonský patentový úřad (JPO)
- Zdroj informací o bílkovinách (PIR-PSD)
- Proteinová datová banka (PDB)
- Protein Research Foundation (PRF)[18]
- RefSeq
- Databáze genomu Saccharomyces (SGD)
- Informační zdroj Arabidopsis (TAIR)
- TROME[19]
- Americký patentový úřad (USPTO)
- UniProtKB / Swiss-Prot, proteinové izoformy UniProtKB / Swiss-Prot, UniProtKB / TrEMBL
- Databáze anotací obratlovců a genomu (VEGA)
- WormBase
UniRef
Referenční klastry UniProt (UniRef) se skládají ze tří databází seskupených sad proteinových sekvencí z UniProtKB a vybraných záznamů UniParc.[20] Databáze UniRef100 kombinuje identické sekvence a fragmenty sekvencí (z libovolného organismus ) do jedné položky UniRef. Sekvence reprezentativního proteinu, přístupová čísla ze všech sloučených položek a odkazů na odpovídající záznamy UniProtKB a UniParc se zobrazí. Sekvence UniRef100 jsou seskupeny pomocí CD-HIT algoritmus stavět UniRef90 a UniRef50.[20][21] Každý klastr se skládá ze sekvencí, které mají alespoň 90% nebo 50% identitu sekvence s nejdelší sekvencí. Klastrování sekvencí výrazně snižuje velikost databáze a umožňuje rychlejší vyhledávání sekvencí.
UniRef je k dispozici na webu UniProt FTP web.
Financování
UniProt je financován z grantů EU Národní institut pro výzkum lidského genomu, Národní institut zdraví (NIH) Evropská komise, švýcarská federální vláda prostřednictvím Spolkového úřadu pro vzdělávání a vědu, NCI-caBIG a americké ministerstvo obrany.[11]
Reference
- ^ UniProt, konsorcium. (Leden 2015). „UniProt: centrum pro informace o proteinech“. Výzkum nukleových kyselin. 43 (Problém s databází): D204–12. doi:10.1093 / nar / gku989. PMC 4384041. PMID 25348405.
- ^ Dayhoff, Margaret O. (1965). Atlas proteinové sekvence a struktury. Silver Spring, Md: National Biomedical Research Foundation.
- ^ „Vydání z roku 2002: NHGRI financuje globální databázi proteinů“. Národní institut pro výzkum lidského genomu (NHGRI). Citováno 14. dubna 2018.
- ^ O'Donovan, C .; Martin, M. J .; Gattiker, A .; Gasteiger, E .; Bairoch, A .; Apweiler, R. (2002). „Vysoce kvalitní zdroj znalostí o bílkovinách: SWISS-PROT a TrEMBL“. Briefings in Bioinformatics. 3 (3): 275–284. doi:10.1093 / bib / 3.3.275. PMID 12230036.
- ^ Wu, C.H .; Yeh, L. S .; Huang, H .; Arminski, L .; Castro-Alvear, J .; Chen, Y .; Hu, Z .; Kourtesis, P .; Ledley, R. S .; Suzek, B.E .; Vinayaka, C. R .; Zhang, J .; Barker, W. C. (2003). „Zdroj bílkovinných informací“. Výzkum nukleových kyselin. 31 (1): 345–347. doi:10.1093 / nar / gkg040. PMC 165487. PMID 12520019.
- ^ Boeckmann, B .; Bairoch, A .; Apweiler, R .; Blatter, M. C .; Estreicher, A .; Gasteiger, E .; Martin, M. J .; Michoud, K .; O'Donovan, C .; Phan, I .; Pilbout, S .; Schneider, M. (2003). „Znalostní databáze proteinů SWISS-PROT a její doplněk TrEMBL v roce 2003“. Výzkum nukleových kyselin. 31 (1): 365–370. doi:10.1093 / nar / gkg095. PMC 165542. PMID 12520024.
- ^ Bairoch, A .; Apweiler, R. (1996). „Databáze proteinových sekvencí SWISS-PROT a její nový doplněk TREMBL“. Výzkum nukleových kyselin. 24 (1): 21–25. doi:10.1093 / nar / 24.1.21. PMC 145613. PMID 8594581.
- ^ Bairoch, A. (2000). „Serendipity v bioinformatice, trápení švýcarského bioinformatika ve vzrušujících dobách!“. Bioinformatika. 16 (1): 48–64. doi:10.1093 / bioinformatika / 16.1.48. PMID 10812477.
- ^ Séverine Altairac, “Naissance d’une banque de données: Interview du prof. Amos Bairoch ". Protéines à la Une, Srpen 2006. ISSN 1660-9824.
- ^ A b C Apweiler, R .; Bairoch, A .; Wu, C. H. (2004). Msgstr "Databáze sekvencí proteinů". Aktuální názor na chemickou biologii. 8 (1): 76–80. doi:10.1016 / j.cbpa.2003.12.004. PMID 15036160.
- ^ A b Uniprot, C. (2009). „Univerzální zdroj bílkovin (UniProt) v roce 2010“. Výzkum nukleových kyselin. 38 (Problém s databází): D142 – D148. doi:10.1093 / nar / gkp846. PMC 2808944. PMID 19843607.
- ^ „Statistiky UniProtKB / Swiss-Prot Release 2018_03“. web.expasy.org. Citováno 14. dubna 2018.
- ^ EMBL-EBI. „Current Release Statistics
. www.ebi.ac.uk. Citováno 14. dubna 2018. - ^ A b C "Jak ručně anotujeme položku UniProtKB?". www.uniprot.org. Citováno 14. dubna 2018.
- ^ A b Apweiler, R .; Bairoch, A .; Wu, C.H .; Barker, W. C .; Boeckmann, B .; Ferro, S .; Gasteiger, E .; Huang, H .; Lopez, R .; Magrane, M .; Martin, M. J .; Natale, D. A .; o'Donovan, C .; Redaschi, N .; Yeh, L. S. (2004). „UniProt: The Universal Protein knowledgebase“. Výzkum nukleových kyselin. 32 (90001): 115D – 1119. doi:10.1093 / nar / gkh131. PMC 308865. PMID 14681372.
- ^ „Odkud pocházejí proteinové sekvence UniProtKB?“. www.uniprot.org. Citováno 14. dubna 2018.
- ^ Leinonen, R .; Diez, F. G .; Binns, D .; Fleischmann, W .; Lopez, R .; Apweiler, R. (2004). „Archiv UniProt“. Bioinformatika. 20 (17): 3236–3237. doi:10.1093 / bioinformatika / bth191. PMID 15044231.
- ^ http://www.prf.or.jp/index-e.html
- ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome
- ^ A b Suzek, B.E .; Huang, H .; McGarvey, P .; Mazumder, R .; Wu, C. H. (2007). „UniRef: Komplexní a neredundantní referenční klastry UniProt“. Bioinformatika. 23 (10): 1282–1288. doi:10.1093 / bioinformatika / btm098. PMID 17379688.
- ^ Li, W .; Jaroszewski, L .; Godzik, A. (2001). „Shlukování vysoce homologních sekvencí za účelem zmenšení velikosti velkých proteinových databází“. Bioinformatika. 17 (3): 282–283. doi:10.1093 / bioinformatika / 17.3.282. PMID 11294794.