InterPro - InterPro
![]() | |
---|---|
Obsah | |
Popis | proteinové rodiny, domén a funkční stránky |
Kontakt | |
Výzkumné centrum | EMBL |
Laboratoř | Evropský bioinformatický institut |
Primární citace | Fin, et al. (2016)[1] |
Datum vydání | 1999 |
Přístup | |
webová stránka | www |
Stáhnout URL | ftp |
Smíšený | |
Uvolnění dat frekvence | 8 týdnů |
Verze | 71,0 (18. listopadu 2018 | )
InterPro je databáze proteinových rodin, domén a funkčních míst, ve kterých lze identifikovatelné znaky nalezené ve známých proteinech aplikovat na nové proteinové sekvence[2] abychom je mohli funkčně charakterizovat.[3][4]
Obsah InterPro se skládá z diagnostických podpisů a proteinů, které se významně shodují. Podpisy se skládají z modelů (jednoduché typy, například regulární výrazy nebo složitější, jako např Skryté Markovovy modely ), které popisují rodiny proteinů, domény nebo stránky. Modely jsou sestaveny z aminokyselinových sekvencí známých rodin nebo domén a následně jsou použity k prohledávání neznámých sekvencí (jako jsou ty, které vznikají sekvenováním nového genomu) za účelem jejich klasifikace. Každá z členských databází InterPro přispívá k jinému výklenku, od velmi vysokých strukturálních klasifikací (SUPERFAMILY a CATH-Gene3D) až po zcela specifické podskupinové klasifikace (TISKY a PANTER ).
Záměrem InterPro je poskytnout jednotné kontaktní místo pro klasifikaci proteinů, kde jsou všechny podpisy vytvořené různými členskými databázemi umístěny do záznamů v databázi InterPro. Podpisy, které představují ekvivalentní domény, weby nebo rodiny, jsou vloženy do stejné položky a položky mohou být také navzájem příbuzné. Další informace, jako je popis, shodné názvy a Genová ontologie (GO) výrazy jsou spojeny s každou položkou, pokud je to možné.
Údaje obsažené v InterPro
InterPro obsahuje tři hlavní entity: proteiny, podpisy (označované také jako „metody“ nebo „modely“) a položky. Proteiny v UniProtKB jsou také ústředními proteinovými entitami v InterPro. Informace o tom, které podpisy se významně shodují s těmito proteiny, se počítají, když jsou sekvence uvolňovány UniProtKB a tyto výsledky jsou zpřístupněny veřejnosti (viz níže). Shody podpisů s proteiny určují, jak jsou podpisy integrovány společně do záznamů InterPro: jako indikátory příbuznosti se používá srovnávací překrývání shodných proteinových sad a umístění shod podpisů na sekvencích. Do InterPro jsou integrovány pouze podpisy považované za dostatečně kvalitní.
InterPro také obsahuje data pro varianty spoje a proteiny obsažené v databázích UniParc a UniMES.
Členské databáze InterPro
Podpisy od InterPro pocházejí ze 14 „členských databází“, které jsou uvedeny níže.
- CATH-Gene3D
- popisuje rodiny proteinů a architektury domén v kompletních genomech. Rodiny proteinů se vytvářejí pomocí Markovova shlukovacího algoritmu, po kterém následuje vícenásobné shlukování podle sekvenční identity. Mapování predikovaných strukturních a sekvenčních domén se provádí pomocí skrytých knihoven modelů Markov, které představují KOCOUR a Pfam domén. Funkční anotace je poskytována proteinům z více zdrojů. Funkční predikce a analýza doménových architektur je k dispozici na webu Gene3D.
- CDD
- Conserved_Domain_Database je zdroj anotace proteinů, který se skládá ze sbírky anotovaných modelů pro více sekvenční zarovnání pro starověké domény a proteiny plné délky. Ty jsou k dispozici jako polohově specifické matice skóre (PSSM) pro rychlou identifikaci konzervovaných domén v proteinových sekvencích pomocí RPS-BLAST.
- HAMAP
- znamená vysoce kvalitní automatizované a manuální anotace mikrobiálních proteinů. Profily HAMAP jsou ručně vytvářeny odbornými kurátory, kteří identifikují proteiny, které jsou součástí dobře konzervovaných bakteriálních, archaálních a plastidem kódovaných (tj. Chloroplastů, kyanel, apikoplastů, nefotosyntetických plastidů) proteinových rodin nebo podrodin.
- MobiDB
- je databáze popisující vnitřní poruchu proteinů.
- PANTER
- je velká sbírka proteinových rodin, které byly pomocí lidských znalostí rozděleny na funkčně příbuzné podskupiny. Tyto podskupiny modelují divergenci specifických funkcí v proteinových rodinách, což umožňuje přesnější asociaci s funkcí (klasifikace molekul lidské funkce a klasifikace biologických procesů a diagramy drah), stejně jako odvození aminokyselin důležitých pro funkční specificitu. Skryté Markovovy modely (HMM) jsou vytvořeny pro každou rodinu a podrodinu pro klasifikaci dalších proteinových sekvencí.
- Pfam
- je velká sbírka více sekvenčních zarovnání a skrytých Markovových modelů pokrývajících mnoho běžných proteinových domén a rodin.
- PIRSF
- systém klasifikace proteinů je síť s několika úrovněmi sekvenční diverzity od superrodin k podrodinám, která odráží evoluční vztah proteinů a domén plné délky. Primární klasifikační jednotkou PIRSF je homeomorfní rodina, jejíž členové jsou jak homologní (vyvinuli se ze společného předka), tak homeomorfní (sdílející podobnost sekvence v plné délce a společnou doménovou architekturu).
- TISKY
- je souhrn proteinových otisků prstů. Otisk prstu je skupina konzervovaných motivů používaných k charakterizaci proteinové rodiny; jeho diagnostická síla je vylepšena iterativním skenováním UniProt. Motivy se obvykle nepřekrývají, ale jsou odděleny podél sekvence, i když v 3D prostoru mohou sousedit. Otisky prstů mohou kódovat proteinové záhyby a funkce flexibilněji a výkonněji než jednotlivé motivy, přičemž jejich plná diagnostická účinnost vyplývá ze vzájemného kontextu poskytovaného sousedy motivů.
- ProDom
- databáze domén se skládá z automatické kompilace homologních domén. Aktuální verze ProDom jsou vytvářeny pomocí nového postupu založeného na rekurzivním vyhledávání PSI-BLAST.
- STRÁNKA
- je databáze proteinových rodin a domén. Skládá se z biologicky významných míst, vzorů a profilů, které pomáhají spolehlivě identifikovat, do které známé rodiny proteinů (pokud existují) nová sekvence.
- CHYTRÝ
- umožňuje identifikaci a anotaci geneticky mobilních domén a analýzu doménových architektur. Je detekovatelných více než 800 doménových rodin v signálních, extracelulárních a s chromatinem asociovaných proteinech. Tyto domény jsou značně anotovány s ohledem na fyletické distribuce, funkční třídu, terciární struktury a funkčně důležité zbytky.
- SUPERFAMILY
- je knihovna profilových skrytých Markovových modelů, které představují všechny proteiny známé struktury. Knihovna je založena na SCOP klasifikace proteinů: každý model odpovídá doméně SCOP a jeho cílem je reprezentovat celý SCOP nadčeleď doméně patří. SUPERFAMILY byla použita k provedení strukturálních přiřazení ke všem kompletně sekvenovaným genomům.
- SFLD
- TIGRFAM
- je sbírka proteinových rodin, která obsahuje kurátorované více sekvenční zarovnání, skryté Markovovy modely (HMM) a anotaci, která poskytuje nástroj pro identifikaci funkčně příbuzných proteinů na základě sekvenční homologie. Ty vstupy, které jsou „ekvivalogy“, seskupují homologní proteiny, které jsou konzervované s ohledem na funkci.
Přístup
Databáze je k dispozici pro textové a sekvenční vyhledávání prostřednictvím webového serveru a pro stahování prostřednictvím anonymního FTP. Jako ostatní EBI databáze, je v veřejná doména, protože jeho obsah může používat „každý jednotlivec a za jakýmkoli účelem“.[5]
Uživatelé mohou také použít software pro skenování podpisů, InterProScan, pokud mají nové sekvence, které vyžadují charakterizaci.[6] InterProScan se často používá v genomové projekty za účelem získání „first-pass“ charakterizace sledovaného genomu.[7][8] Od února 2013[Aktualizace], veřejná verze InterProScan (v4.x) je Perl je však ve vývoji nová architektura založená na Javě, která bude tvořit jádro InterProScan v5.[9]
InterPro si klade za cíl vydávat data veřejnosti každých 8 týdnů, obvykle do jednoho dne od vydání stejných proteinů UniProtKB.
Viz také
Reference
- ^ Finn, RD; Attwood, TK; Babbitt, PC; Bateman, A; Bork, P; Bridge, AJ; Chang, HY; Dosztányi, Z; El-Gebali, S; Fraser, M; Gough, J; Haft, D; Holliday, GL; Huang, H; Huang, X; Letunic, I; Lopez, R; Lu, S; Marchler-Bauer, A; Mi, H; Mistry, J; Natale, DA; Necci, M; Nuka, G; Orengo, CA; Park, Y; Pesseat, S; Piovesan, D; Potter, SC; Rawlings, ND; Redaschi, N; Richardson, L; Rivoire, C; Sangrador-Vegas, A; Sigrist, C; Sillitoe, I; Smithers, B; Squizzato, S; Sutton, G; Thanki, N; Thomas, PD; Tosatto, SC; Wu, CH; Xenarios, I; Yeh, LS; Young, SY; Mitchell, AL (29. listopadu 2016). „InterPro v roce 2017 - nad rámec anotací proteinových rodin a domén“. Výzkum nukleových kyselin. 45 (D1): D190 – D199. doi:10.1093 / nar / gkw1107. PMC 5210578. PMID 27899635.
- ^ Hunter, S .; Jones, P .; Mitchell, A .; Apweiler, R .; Attwood, T. K.; Bateman, A .; Bernard, T .; Binns, D .; Bork, P .; Burge, S .; De Castro, E .; Coggill, P .; Corbett, M .; Das, U .; Daugherty, L .; Duquenne, L .; Finn, R. D .; Fraser, M .; Gough, J .; Haft, D .; Hulo, N .; Kahn, D .; Kelly, E .; Letunic, I .; Lonsdale, D .; Lopez, R .; Madera, M .; Maslen, J .; McAnulla, C .; McDowall, J. (2011). „InterPro v roce 2011: Nový vývoj v databázi predikcí rodin a domén“. Výzkum nukleových kyselin. 40 (Problém s databází): D306 – D312. doi:10.1093 / nar / gkr948. PMC 3245097. PMID 22096229.
- ^ Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M .; Bucher, P .; Cerutti, L .; Corpet, F .; Croning, M. D .; Durbin, R.; Falquet, L .; Fleischmann, W .; Gouzy, J .; Hermjakob, H .; Hulo, N .; Jonassen, I .; Kahn, D .; Kanapin, A .; Karavidopoulou, Y .; Lopez, R .; Marx, B .; Mulder, N.J .; Oinn, T. M .; Pagni, M .; Sluha, F .; Sigrist, C. J .; Zdobnov, E. M. (2001). „Databáze InterPro, integrovaný dokumentační zdroj pro rodiny proteinů, domény a funkční weby“. Výzkum nukleových kyselin. 29 (1): 37–40. doi:10.1093 / nar / 29.1.37. PMC 29841. PMID 11125043.
- ^ Apweiler, R.; Attwood, T. K.; Bairoch, A.; Bateman, A.; Birney, E.; Biswas, M .; Bucher, P .; Cerutti, L .; Corpet, F .; Croning, M. D. R .; Durbin, R.; Falquet, L .; Fleischmann, W .; Gouzy, J .; Hermjakob, H .; Hulo, N .; Jonassen, I .; Kahn, D .; Kanapin, A .; Karavidopoulou, Y .; Lopez, R .; Marx, B .; Mulder, N.J .; Oinn, T. M .; Pagni, M .; Sluha, F .; Sigrist, C. J. A .; Zdobnov, E. M .; Interpro, C. (2000). „InterPro - zdroj integrované dokumentace pro rodiny proteinů, domény a funkční weby“. Bioinformatika. 16 (12): 1145–1150. doi:10.1093 / bioinformatika / 16.12.1145. PMID 11159333.
- ^ „Podmínky použití pro služby EMBL-EBI | Evropský bioinformatický institut“.
- ^ Quevillon, E.; Silventoinen, V.; Pillai, S.; Harte, N.; Mulder, N.; Apweiler, R.; Lopez, R. (Červenec 2005). "InterProScan: identifikátor proteinových domén" (Volný plný text). Výzkum nukleových kyselin. 33 (Problém s webovým serverem): W116 – W120. doi:10.1093 / nar / gki442. ISSN 0305-1048. PMC 1160203. PMID 15980438.
- ^ Lander, E. S.; Linton, M .; Birren, B .; Nusbaum, C .; Zody, C .; Baldwin, J .; Devon, K .; Dewar, K .; Doyle, M .; Fitzhugh, W .; Funke, R .; Gage, D .; Harris, K .; Heaford, A .; Howland, J .; Kann, L .; Lehoczky, J .; Levine, R .; McEwan, P .; McKernan, K .; Meldrim, J .; Mesirov, J. P .; Miranda, C .; Morris, W .; Naylor, J .; Raymond, C .; Rosetti, M .; Santos, R .; Sheridan, A .; et al. (Únor 2001). „Počáteční sekvenování a analýza lidského genomu“ (PDF). Příroda. 409 (6822): 860–921. Bibcode:2001 Natur.409..860L. doi:10.1038/35057062. ISSN 0028-0836. PMID 11237011.
- ^ Holt, A .; Subramanian, M .; Halpern, A .; Sutton, G .; Charlab, R .; Nusskern, R .; Wincker, P .; Clark, G .; Ribeiro, M .; Wides, R .; Salzberg, S.L .; Loftus, B .; Yandell, M .; Majoros, W. H .; Rusch, D. B .; Lai, Z .; Kraft, C. L .; Abril, J. F .; Anthouard, V .; Arensburger, P .; Atkinson, P. W .; Baden, H .; De Berardinis, V .; Baldwin, D .; Benes, V .; Biedler, J .; Blass, C .; Bolanos, R .; Boscus, D .; et al. (Říjen 2002). „Sekvence genomu malarického komára Anopheles gambiae“. Věda. 298 (5591): 129–149. Bibcode:2002Sci ... 298..129H. CiteSeerX 10.1.1.149.9058. doi:10.1126 / science.1076181. ISSN 0036-8075. PMID 12364791.
- ^ „Google Code Archive - Long-term storage for Google Code Project Hosting“.
externí odkazy
- Oficiální webové stránky - webový server