InterPro - InterPro

InterPro
Obsah
Popis	proteinové rodiny, domén a funkční stránky
Kontakt
Výzkumné centrum	EMBL
Laboratoř	Evropský bioinformatický institut
Primární citace	Fin, et al. (2016)
Datum vydání	1999
Přístup
webová stránka	www.ebi.ac.Spojené království/ interpro/
Stáhnout URL	ftp
Smíšený
Uvolnění dat; frekvence	8 týdnů
Verze	71,0 (18. listopadu 2018; Před 2 roky)

InterPro je databáze proteinových rodin, domén a funkčních míst, ve kterých lze identifikovatelné znaky nalezené ve známých proteinech aplikovat na nové proteinové sekvence^[2] abychom je mohli funkčně charakterizovat.^[3]^[4]

Obsah InterPro se skládá z diagnostických podpisů a proteinů, které se významně shodují. Podpisy se skládají z modelů (jednoduché typy, například regulární výrazy nebo složitější, jako např Skryté Markovovy modely ), které popisují rodiny proteinů, domény nebo stránky. Modely jsou sestaveny z aminokyselinových sekvencí známých rodin nebo domén a následně jsou použity k prohledávání neznámých sekvencí (jako jsou ty, které vznikají sekvenováním nového genomu) za účelem jejich klasifikace. Každá z členských databází InterPro přispívá k jinému výklenku, od velmi vysokých strukturálních klasifikací (SUPERFAMILY a CATH-Gene3D) až po zcela specifické podskupinové klasifikace (TISKY a PANTER ).

Záměrem InterPro je poskytnout jednotné kontaktní místo pro klasifikaci proteinů, kde jsou všechny podpisy vytvořené různými členskými databázemi umístěny do záznamů v databázi InterPro. Podpisy, které představují ekvivalentní domény, weby nebo rodiny, jsou vloženy do stejné položky a položky mohou být také navzájem příbuzné. Další informace, jako je popis, shodné názvy a Genová ontologie (GO) výrazy jsou spojeny s každou položkou, pokud je to možné.

Údaje obsažené v InterPro

InterPro obsahuje tři hlavní entity: proteiny, podpisy (označované také jako „metody“ nebo „modely“) a položky. Proteiny v UniProtKB jsou také ústředními proteinovými entitami v InterPro. Informace o tom, které podpisy se významně shodují s těmito proteiny, se počítají, když jsou sekvence uvolňovány UniProtKB a tyto výsledky jsou zpřístupněny veřejnosti (viz níže). Shody podpisů s proteiny určují, jak jsou podpisy integrovány společně do záznamů InterPro: jako indikátory příbuznosti se používá srovnávací překrývání shodných proteinových sad a umístění shod podpisů na sekvencích. Do InterPro jsou integrovány pouze podpisy považované za dostatečně kvalitní.

InterPro také obsahuje data pro varianty spoje a proteiny obsažené v databázích UniParc a UniMES.

Členské databáze InterPro

Podpisy od InterPro pocházejí ze 14 „členských databází“, které jsou uvedeny níže.

CATH-Gene3D: popisuje rodiny proteinů a architektury domén v kompletních genomech. Rodiny proteinů se vytvářejí pomocí Markovova shlukovacího algoritmu, po kterém následuje vícenásobné shlukování podle sekvenční identity. Mapování predikovaných strukturních a sekvenčních domén se provádí pomocí skrytých knihoven modelů Markov, které představují KOCOUR a Pfam domén. Funkční anotace je poskytována proteinům z více zdrojů. Funkční predikce a analýza doménových architektur je k dispozici na webu Gene3D.
CDD: Conserved_Domain_Database je zdroj anotace proteinů, který se skládá ze sbírky anotovaných modelů pro více sekvenční zarovnání pro starověké domény a proteiny plné délky. Ty jsou k dispozici jako polohově specifické matice skóre (PSSM) pro rychlou identifikaci konzervovaných domén v proteinových sekvencích pomocí RPS-BLAST.
HAMAP: znamená vysoce kvalitní automatizované a manuální anotace mikrobiálních proteinů. Profily HAMAP jsou ručně vytvářeny odbornými kurátory, kteří identifikují proteiny, které jsou součástí dobře konzervovaných bakteriálních, archaálních a plastidem kódovaných (tj. Chloroplastů, kyanel, apikoplastů, nefotosyntetických plastidů) proteinových rodin nebo podrodin.
MobiDB: je databáze popisující vnitřní poruchu proteinů.
PANTER: je velká sbírka proteinových rodin, které byly pomocí lidských znalostí rozděleny na funkčně příbuzné podskupiny. Tyto podskupiny modelují divergenci specifických funkcí v proteinových rodinách, což umožňuje přesnější asociaci s funkcí (klasifikace molekul lidské funkce a klasifikace biologických procesů a diagramy drah), stejně jako odvození aminokyselin důležitých pro funkční specificitu. Skryté Markovovy modely (HMM) jsou vytvořeny pro každou rodinu a podrodinu pro klasifikaci dalších proteinových sekvencí.
Pfam: je velká sbírka více sekvenčních zarovnání a skrytých Markovových modelů pokrývajících mnoho běžných proteinových domén a rodin.
PIRSF: systém klasifikace proteinů je síť s několika úrovněmi sekvenční diverzity od superrodin k podrodinám, která odráží evoluční vztah proteinů a domén plné délky. Primární klasifikační jednotkou PIRSF je homeomorfní rodina, jejíž členové jsou jak homologní (vyvinuli se ze společného předka), tak homeomorfní (sdílející podobnost sekvence v plné délce a společnou doménovou architekturu).
TISKY: je souhrn proteinových otisků prstů. Otisk prstu je skupina konzervovaných motivů používaných k charakterizaci proteinové rodiny; jeho diagnostická síla je vylepšena iterativním skenováním UniProt. Motivy se obvykle nepřekrývají, ale jsou odděleny podél sekvence, i když v 3D prostoru mohou sousedit. Otisky prstů mohou kódovat proteinové záhyby a funkce flexibilněji a výkonněji než jednotlivé motivy, přičemž jejich plná diagnostická účinnost vyplývá ze vzájemného kontextu poskytovaného sousedy motivů.
ProDom: databáze domén se skládá z automatické kompilace homologních domén. Aktuální verze ProDom jsou vytvářeny pomocí nového postupu založeného na rekurzivním vyhledávání PSI-BLAST.
STRÁNKA: je databáze proteinových rodin a domén. Skládá se z biologicky významných míst, vzorů a profilů, které pomáhají spolehlivě identifikovat, do které známé rodiny proteinů (pokud existují) nová sekvence.
CHYTRÝ: umožňuje identifikaci a anotaci geneticky mobilních domén a analýzu doménových architektur. Je detekovatelných více než 800 doménových rodin v signálních, extracelulárních a s chromatinem asociovaných proteinech. Tyto domény jsou značně anotovány s ohledem na fyletické distribuce, funkční třídu, terciární struktury a funkčně důležité zbytky.
SUPERFAMILY: je knihovna profilových skrytých Markovových modelů, které představují všechny proteiny známé struktury. Knihovna je založena na SCOP klasifikace proteinů: každý model odpovídá doméně SCOP a jeho cílem je reprezentovat celý SCOP nadčeleď doméně patří. SUPERFAMILY byla použita k provedení strukturálních přiřazení ke všem kompletně sekvenovaným genomům.
SFLD
TIGRFAM: je sbírka proteinových rodin, která obsahuje kurátorované více sekvenční zarovnání, skryté Markovovy modely (HMM) a anotaci, která poskytuje nástroj pro identifikaci funkčně příbuzných proteinů na základě sekvenční homologie. Ty vstupy, které jsou „ekvivalogy“, seskupují homologní proteiny, které jsou konzervované s ohledem na funkci.

Přístup

Databáze je k dispozici pro textové a sekvenční vyhledávání prostřednictvím webového serveru a pro stahování prostřednictvím anonymního FTP. Jako ostatní EBI databáze, je v veřejná doména, protože jeho obsah může používat „každý jednotlivec a za jakýmkoli účelem“.^[5]

Uživatelé mohou také použít software pro skenování podpisů, InterProScan, pokud mají nové sekvence, které vyžadují charakterizaci.^[6] InterProScan se často používá v genomové projekty za účelem získání „first-pass“ charakterizace sledovaného genomu.^[7]^[8] Od února 2013^{[Aktualizace]}, veřejná verze InterProScan (v4.x) je Perl je však ve vývoji nová architektura založená na Javě, která bude tvořit jádro InterProScan v5.^[9]

InterPro si klade za cíl vydávat data veřejnosti každých 8 týdnů, obvykle do jednoho dne od vydání stejných proteinů UniProtKB.

Viz také

Reference

^ Finn, RD; Attwood, TK; Babbitt, PC; Bateman, A; Bork, P; Bridge, AJ; Chang, HY; Dosztányi, Z; El-Gebali, S; Fraser, M; Gough, J; Haft, D; Holliday, GL; Huang, H; Huang, X; Letunic, I; Lopez, R; Lu, S; Marchler-Bauer, A; Mi, H; Mistry, J; Natale, DA; Necci, M; Nuka, G; Orengo, CA; Park, Y; Pesseat, S; Piovesan, D; Potter, SC; Rawlings, ND; Redaschi, N; Richardson, L; Rivoire, C; Sangrador-Vegas, A; Sigrist, C; Sillitoe, I; Smithers, B; Squizzato, S; Sutton, G; Thanki, N; Thomas, PD; Tosatto, SC; Wu, CH; Xenarios, I; Yeh, LS; Young, SY; Mitchell, AL (29. listopadu 2016). „InterPro v roce 2017 - nad rámec anotací proteinových rodin a domén“. Výzkum nukleových kyselin. 45 (D1): D190 – D199. doi:10.1093 / nar / gkw1107. PMC 5210578. PMID 27899635.
^ Hunter, S .; Jones, P .; Mitchell, A .; Apweiler, R .; Attwood, T. K.; Bateman, A .; Bernard, T .; Binns, D .; Bork, P .; Burge, S .; De Castro, E .; Coggill, P .; Corbett, M .; Das, U .; Daugherty, L .; Duquenne, L .; Finn, R. D .; Fraser, M .; Gough, J .; Haft, D .; Hulo, N .; Kahn, D .; Kelly, E .; Letunic, I .; Lonsdale, D .; Lopez, R .; Madera, M .; Maslen, J .; McAnulla, C .; McDowall, J. (2011). „InterPro v roce 2011: Nový vývoj v databázi predikcí rodin a domén“. Výzkum nukleových kyselin. 40 (Problém s databází): D306 – D312. doi:10.1093 / nar / gkr948. PMC 3245097. PMID 22096229.
^ Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M .; Bucher, P .; Cerutti, L .; Corpet, F .; Croning, M. D .; Durbin, R.; Falquet, L .; Fleischmann, W .; Gouzy, J .; Hermjakob, H .; Hulo, N .; Jonassen, I .; Kahn, D .; Kanapin, A .; Karavidopoulou, Y .; Lopez, R .; Marx, B .; Mulder, N.J .; Oinn, T. M .; Pagni, M .; Sluha, F .; Sigrist, C. J .; Zdobnov, E. M. (2001). „Databáze InterPro, integrovaný dokumentační zdroj pro rodiny proteinů, domény a funkční weby“. Výzkum nukleových kyselin. 29 (1): 37–40. doi:10.1093 / nar / 29.1.37. PMC 29841. PMID 11125043.
^ Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M .; Bucher, P .; Cerutti, L .; Corpet, F .; Croning, M. D. R .; Durbin, R.; Falquet, L .; Fleischmann, W .; Gouzy, J .; Hermjakob, H .; Hulo, N .; Jonassen, I .; Kahn, D .; Kanapin, A .; Karavidopoulou, Y .; Lopez, R .; Marx, B .; Mulder, N.J .; Oinn, T. M .; Pagni, M .; Sluha, F .; Sigrist, C. J. A .; Zdobnov, E. M .; Interpro, C. (2000). „InterPro - zdroj integrované dokumentace pro rodiny proteinů, domény a funkční weby“. Bioinformatika. 16 (12): 1145–1150. doi:10.1093 / bioinformatika / 16.12.1145. PMID 11159333.
^ „Podmínky použití pro služby EMBL-EBI | Evropský bioinformatický institut“.
^ Quevillon, E.; Silventoinen, V.; Pillai, S.; Harte, N.; Mulder, N.; Apweiler, R.; Lopez, R. (Červenec 2005). "InterProScan: identifikátor proteinových domén" (Volný plný text). Výzkum nukleových kyselin. 33 (Problém s webovým serverem): W116 – W120. doi:10.1093 / nar / gki442. ISSN 0305-1048. PMC 1160203. PMID 15980438.
^ Lander, E. S.; Linton, M .; Birren, B .; Nusbaum, C .; Zody, C .; Baldwin, J .; Devon, K .; Dewar, K .; Doyle, M .; Fitzhugh, W .; Funke, R .; Gage, D .; Harris, K .; Heaford, A .; Howland, J .; Kann, L .; Lehoczky, J .; Levine, R .; McEwan, P .; McKernan, K .; Meldrim, J .; Mesirov, J. P .; Miranda, C .; Morris, W .; Naylor, J .; Raymond, C .; Rosetti, M .; Santos, R .; Sheridan, A .; et al. (Únor 2001). „Počáteční sekvenování a analýza lidského genomu“ (PDF). Příroda. 409 (6822): 860–921. Bibcode:2001 Natur.409..860L. doi:10.1038/35057062. ISSN 0028-0836. PMID 11237011.
^ Holt, A .; Subramanian, M .; Halpern, A .; Sutton, G .; Charlab, R .; Nusskern, R .; Wincker, P .; Clark, G .; Ribeiro, M .; Wides, R .; Salzberg, S.L .; Loftus, B .; Yandell, M .; Majoros, W. H .; Rusch, D. B .; Lai, Z .; Kraft, C. L .; Abril, J. F .; Anthouard, V .; Arensburger, P .; Atkinson, P. W .; Baden, H .; De Berardinis, V .; Baldwin, D .; Benes, V .; Biedler, J .; Blass, C .; Bolanos, R .; Boscus, D .; et al. (Říjen 2002). „Sekvence genomu malarického komára Anopheles gambiae“. Věda. 298 (5591): 129–149. Bibcode:2002Sci ... 298..129H. CiteSeerX 10.1.1.149.9058. doi:10.1126 / science.1076181. ISSN 0036-8075. PMID 12364791.
^ „Google Code Archive - Long-term storage for Google Code Project Hosting“.

externí odkazy

Oficiální webové stránky - webový server

[1] Finn, RD; Attwood, TK; Babbitt, PC; Bateman, A; Bork, P; Bridge, AJ; Chang, HY; Dosztányi, Z; El-Gebali, S; Fraser, M; Gough, J; Haft, D; Holliday, GL; Huang, H; Huang, X; Letunic, I; Lopez, R; Lu, S; Marchler-Bauer, A; Mi, H; Mistry, J; Natale, DA; Necci, M; Nuka, G; Orengo, CA; Park, Y; Pesseat, S; Piovesan, D; Potter, SC; Rawlings, ND; Redaschi, N; Richardson, L; Rivoire, C; Sangrador-Vegas, A; Sigrist, C; Sillitoe, I; Smithers, B; Squizzato, S; Sutton, G; Thanki, N; Thomas, PD; Tosatto, SC; Wu, CH; Xenarios, I; Yeh, LS; Young, SY; Mitchell, AL (29. listopadu 2016). „InterPro v roce 2017 - nad rámec anotací proteinových rodin a domén“. Výzkum nukleových kyselin. 45 (D1): D190 – D199. doi:10.1093 / nar / gkw1107. PMC 5210578. PMID 27899635.

[pmid22096229-2] Hunter, S .; Jones, P .; Mitchell, A .; Apweiler, R .; Attwood, T. K.; Bateman, A .; Bernard, T .; Binns, D .; Bork, P .; Burge, S .; De Castro, E .; Coggill, P .; Corbett, M .; Das, U .; Daugherty, L .; Duquenne, L .; Finn, R. D .; Fraser, M .; Gough, J .; Haft, D .; Hulo, N .; Kahn, D .; Kelly, E .; Letunic, I .; Lonsdale, D .; Lopez, R .; Madera, M .; Maslen, J .; McAnulla, C .; McDowall, J. (2011). „InterPro v roce 2011: Nový vývoj v databázi predikcí rodin a domén“. Výzkum nukleových kyselin. 40 (Problém s databází): D306 – D312. doi:10.1093 / nar / gkr948. PMC 3245097. PMID 22096229.

[3] Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M .; Bucher, P .; Cerutti, L .; Corpet, F .; Croning, M. D .; Durbin, R.; Falquet, L .; Fleischmann, W .; Gouzy, J .; Hermjakob, H .; Hulo, N .; Jonassen, I .; Kahn, D .; Kanapin, A .; Karavidopoulou, Y .; Lopez, R .; Marx, B .; Mulder, N.J .; Oinn, T. M .; Pagni, M .; Sluha, F .; Sigrist, C. J .; Zdobnov, E. M. (2001). „Databáze InterPro, integrovaný dokumentační zdroj pro rodiny proteinů, domény a funkční weby“. Výzkum nukleových kyselin. 29 (1): 37–40. doi:10.1093 / nar / 29.1.37. PMC 29841. PMID 11125043.

[4] Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M .; Bucher, P .; Cerutti, L .; Corpet, F .; Croning, M. D. R .; Durbin, R.; Falquet, L .; Fleischmann, W .; Gouzy, J .; Hermjakob, H .; Hulo, N .; Jonassen, I .; Kahn, D .; Kanapin, A .; Karavidopoulou, Y .; Lopez, R .; Marx, B .; Mulder, N.J .; Oinn, T. M .; Pagni, M .; Sluha, F .; Sigrist, C. J. A .; Zdobnov, E. M .; Interpro, C. (2000). „InterPro - zdroj integrované dokumentace pro rodiny proteinů, domény a funkční weby“. Bioinformatika. 16 (12): 1145–1150. doi:10.1093 / bioinformatika / 16.12.1145. PMID 11159333.

[termsofuse-5] „Podmínky použití pro služby EMBL-EBI | Evropský bioinformatický institut“.

[pmid15980438-6] Quevillon, E.; Silventoinen, V.; Pillai, S.; Harte, N.; Mulder, N.; Apweiler, R.; Lopez, R. (Červenec 2005). "InterProScan: identifikátor proteinových domén" (Volný plný text). Výzkum nukleových kyselin. 33 (Problém s webovým serverem): W116 – W120. doi:10.1093 / nar / gki442. ISSN 0305-1048. PMC 1160203. PMID 15980438.

[pmid11237011-7] Lander, E. S.; Linton, M .; Birren, B .; Nusbaum, C .; Zody, C .; Baldwin, J .; Devon, K .; Dewar, K .; Doyle, M .; Fitzhugh, W .; Funke, R .; Gage, D .; Harris, K .; Heaford, A .; Howland, J .; Kann, L .; Lehoczky, J .; Levine, R .; McEwan, P .; McKernan, K .; Meldrim, J .; Mesirov, J. P .; Miranda, C .; Morris, W .; Naylor, J .; Raymond, C .; Rosetti, M .; Santos, R .; Sheridan, A .; et al. (Únor 2001). „Počáteční sekvenování a analýza lidského genomu“ (PDF). Příroda. 409 (6822): 860–921. Bibcode:2001 Natur.409..860L. doi:10.1038/35057062. ISSN 0028-0836. PMID 11237011.

[pmid12364791-8] Holt, A .; Subramanian, M .; Halpern, A .; Sutton, G .; Charlab, R .; Nusskern, R .; Wincker, P .; Clark, G .; Ribeiro, M .; Wides, R .; Salzberg, S.L .; Loftus, B .; Yandell, M .; Majoros, W. H .; Rusch, D. B .; Lai, Z .; Kraft, C. L .; Abril, J. F .; Anthouard, V .; Arensburger, P .; Atkinson, P. W .; Baden, H .; De Berardinis, V .; Baldwin, D .; Benes, V .; Biedler, J .; Blass, C .; Bolanos, R .; Boscus, D .; et al. (Říjen 2002). „Sekvence genomu malarického komára Anopheles gambiae“. Věda. 298 (5591): 129–149. Bibcode:2002Sci ... 298..129H. CiteSeerX 10.1.1.149.9058. doi:10.1126 / science.1076181. ISSN 0036-8075. PMID 12364791.

[i5codebase-9] „Google Code Archive - Long-term storage for Google Code Project Hosting“.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Bioinformatika
Databáze	Sekvenční databáze: GenBank, Evropský archiv nukleotidů a DNA Data Bank of Japan Sekundární databáze: UniProt, databáze proteinových sekvencí seskupených dohromady Swiss-Prot, TrEMBL a Zdroj informací o bílkovinách Další databáze: Proteinová datová banka, Ensembl a InterPro Specializované genomové databáze: TUČNĚ, Databáze genomu Saccharomyces, FlyBase, VectorBase, WormBase, Databáze krysích genomů, Základna PHI, Informační zdroj Arabidopsis a Zebrafish Information Network
Software	VÝBUCH Motýlek Clustal VYTEPAT HMMER SVAL SAMtools SOAP suite Cylindr
jiný	Server: EXPASY Ontologie: Genová ontologie Rosalind (vzdělávací platforma)
Instituce	Široký institut China National GeneBank (CNGB) Oddělení výpočetní biologie (CBD) Microsoft Research - Centrum výpočetní a biologie systémů University of Trento (COSBI) Databázové centrum pro vědu o živé přírodě (DBCLS) DNA Data Bank of Japan (DDBJ) Evropský bioinformatický institut (EMBL-EBI) Evropská laboratoř molekulární biologie (EMBL) Flatiron Institute Institut J. Craiga Ventera (JCVI) Max Planck Institute of Molecular Cell Biology and Genetics (MPI-CBG) Americké národní středisko pro biotechnologické informace (NCBI) Japonský ústav genetiky Nizozemské bioinformatické centrum (NBIC) Centrum filipínského genomu (PGC) Výzkum skriptů Švýcarský institut pro bioinformatiku (SIB) Wellcome Sanger Institute Whitehead Institute
Organizace	Africká společnost pro bioinformatiku a výpočetní biologii (ASBCB) Austrálie - zdroj bioinformatiky (EMBL-AR) Evropská síť molekulární biologie (EMBnet) Mezinárodní spolupráce s databází nukleotidových sekvencí (INSDC) International Society for Biocuration (ISB) Mezinárodní společnost pro výpočetní biologii (ISCB) Studentská rada (ISCB-SC) Ústav genomiky a integrační biologie (CSIR-IGIB) Japonská společnost pro bioinformatiku (JSBi)
Setkání	Konference o výpočetní biologii v Basileji ([PŘED NAŠÍM LETOPOČTEM²]) Evropská konference o výpočetní biologii (ECCB) Inteligentní systémy pro molekulární biologii (ISMB) Mezinárodní konference o bioinformatice (InCoB) Konference ISCB Africa ASBCB o bioinformatice Tichomořské symposium o biopočítačích (PSB) Výzkum v oblasti výpočetní molekulární biologie (RECOMB)
Formáty souborů	CRAM formát Formát FASTA Formát FASTQ Formát NeXML Formát Nexus Pileup formát Formát SAM Stockholmský formát
související témata	Výpočetní biologie Seznam biobanek Seznam biologických databází Molekulární fylogenetika Sekvenování Sekvenční databáze Zarovnání sekvence
Kategorie Commons