Proteinový tandem se opakuje - Protein tandem repeats
Pole protein tandemové opakování je definováno jako několik (alespoň dvou) sousedních kopií, které mají stejné nebo podobné sekvenční motivy. Tyto periodické sekvence jsou generovány interními duplikacemi v kódujících i nekódujících genomových sekvencích. Opakující se jednotky proteinových tandemových opakování jsou značně různorodé, od opakování jedné aminokyseliny až po domény 100 nebo více zbytků.[1][2]
„Opakuje se“ v bílkovinách
v bílkoviny, "opakování" je jakýkoli blok sekvence, který vrací více než jedenkrát v souboru sekvence, buď ve stejné nebo velmi podobné formě. Stupeň podobnosti může být vysoce variabilní, přičemž některá opakování udržují pouze několik konzervovaných pozic aminokyselin a charakteristickou délku. Vysoce degenerované opakování může být velmi obtížné detekovat pouze ze sekvence. Strukturální podobnost může pomoci identifikovat opakující se vzory v pořadí.
Struktura
Repetitivita sama o sobě nenaznačuje nic o struktuře proteinu. „Pravidlem“ mohou být krátké opakující se sekvence (např. Sekvence pod délkou 10 aminokyselin) vnitřně neuspořádaný, a není součástí žádného složený proteinové domény. Opakování, které je dlouhé alespoň 30 až 40 aminokyselin, je mnohem pravděpodobnější, že bude složeno jako součást domény. Taková dlouhá opakování často svědčí o přítomnosti solenoidové domény v proteinu.
Přibližně polovina regionů tandemového opakování má vnitřně neuspořádaný konformace se přirozeně rozvinula.[3][4][5] Příklady neuspořádaných opakujících se sekvencí zahrnují 7-merní peptidové repetice nalezené v RPB1 podjednotka z RNA polymeráza II,[6] nebo tandem beta-katenin nebo axin vazba lineární motivy v APC (adenomatózní polypóza coli).[7] Druhá polovina regionů se stájí 3D struktura má nepřeberné množství tvarů a funkcí.[8][9] Příklady krátkých opakování vykazujících uspořádané struktury zahrnují tři zbytky opakování kolagenu nebo pět zbytků pentapeptid opakovat který tvoří a beta spirála struktura.
Klasifikace
V závislosti na délce opakujících se jednotek lze jejich proteinové struktury rozdělit do pěti tříd:[8][9]
- krystalické agregáty tvořené oblastmi s 1 nebo 2 zbytky dlouhými opakováními, archetypální regiony s nízkou složitostí
- vláknitý struktury stabilizované interřetězcovými interakcemi s 3-7 zbytkovými opakováními
- protáhlý struktury s opakováním 5–40 zbytků, kterým dominuje solenoidové proteiny
- Zavřeno (ne podlouhlé) struktury s opakováním 30-60 zbytků jako toroidní opakování
- korálky na provázku struktury s typickou velikostí opakování přes 50 zbytků, které jsou již dostatečně velké, aby se mohly samostatně složit do stabilních domén.
Funkce
Některé známé příklady proteinů s tandemovými opakováními jsou kolagen, který hraje klíčovou roli v uspořádání extracelulární matrice; spirálovitě vinuté cívky mající strukturální a oligomerační funkce; opakování bohaté na leucin proteiny, které specificky váží řadu globulárních proteinů svými konkávními povrchy; a proteiny se zinkovým prstem, které regulují expresi genů vazbou DNA.
Proteiny tandemového opakování často fungují jako moduly interakce protein-protein. The WD40 opakovat je ukázkovým příkladem této funkce.[10]
Distribuce v proteomech
Tandemové repetice jsou všudypřítomné proteomy a vyskytují se v nejméně 14% všech proteinů.[11] Například jsou přítomny téměř v každém třetím lidském proteinu a dokonce v každém druhém proteinu z Plasmodium falciparum nebo Dictyostelium discoideum.[11][12] Tandemové repetice s krátkými opakujícími se jednotkami (zejména homorepeaty) jsou častější než jiné.[11]
Metody anotace
Opakování proteinových tandemů lze detekovat buď ze sekvence, nebo anotovat ze struktury. Byly vytvořeny specializované metody pro identifikaci opakujících se proteinů [13].
Sekvenčně založené strategie založené na hledání homologie [14] nebo přiřazení domény [15] [16], většinou podceňují TR kvůli přítomnosti vysoce degenerovaných opakujících se jednotek [17]. Nedávná studie k pochopení a zlepšení pokrytí Pfam lidským proteomem [17] ukázaly, že pět z deseti největších klastrů sekvence, které nejsou označeny Pfam, jsou oblasti opakování. Alternativně mohou být metody, které nevyžadují žádné předchozí znalosti pro detekci opakovaných podřetězců, založeny na auto-srovnání [18] [19]shlukování [20] [21] nebo skryté Markovovy modely [22] [23]. Někteří jiní se spoléhají na měření složitosti [13] nebo využijte meta vyhledávání ke kombinování výstupů z různých zdrojů [24] [25].
Metody založené na struktuře místo toho využívají výhod modulárnosti dostupných struktur PDB k rozpoznání opakujících se prvků [26] [27] [28] [29] [30].
Reference
- ^ Heringa J (červen 1998). "Detekce vnitřních opakování: jak časté jsou?". Aktuální názor na strukturní biologii. 8 (3): 338–45. doi:10.1016 / s0959-440x (98) 80068-7. PMID 9666330.
- ^ Andrade MA, Ponting CP, Gibson TJ, Bork P (květen 2000). „Metoda identifikace opakování proteinů založená na homologii pomocí statistických odhadů významnosti“. Journal of Molecular Biology. 298 (3): 521–37. doi:10.1006 / jmbi.2000.3684. PMID 10772867.
- ^ Tompa P (září 2003). "Jiskrově nestrukturované proteiny se vyvíjejí opakovanou expanzí". BioEssays. 25 (9): 847–55. doi:10.1002 / bies.10324. PMID 12938174. S2CID 32684524.
- ^ Simon M, Hancock JM (2009). „Tandemové a kryptické aminokyselinové opakování se hromadí v neuspořádaných oblastech proteinů“. Genome Biology. 10 (6): R59. doi:10.1186 / gb-2009-10-6-r59. PMC 2718493. PMID 19486509.
- ^ Jorda J, Xue B, Uversky VN, Kajava AV (červen 2010). „Proteinový tandem se opakuje - čím dokonalejší, tím méně strukturovaný“ (PDF). Časopis FEBS. 277 (12): 2673–82. doi:10.1111 / j.1742-4658.2010.07684.x. PMC 2928880. PMID 20553501.
- ^ Meyer PA, Ye P, Zhang M, Suh MH, Fu J (červen 2006). „Fázování RNA polymerázy II pomocí vnitřně vázaných atomů Zn: aktualizovaný strukturální model“. Struktura. 14 (6): 973–82. doi:10.1016 / j.str.2006.04.003. PMID 16765890.
- ^ Liu J, Xing Y, Hinds TR, Zheng J, Xu W (červen 2006). „Třetí opakování 20 aminokyselin je nejtěsnějším vazebným místem APC pro beta-katenin“. J. Mol. Biol. 360 (1): 133–44. doi:10.1016 / j.jmb.2006.04.064. PMID 16753179.
- ^ A b Kajava AV (září 2012). Msgstr "Tandemové repetice v proteinech: od sekvence po strukturu". Journal of Structural Biology. 179 (3): 279–88. doi:10.1016 / j.jsb.2011.08.009. PMID 21884799.
- ^ A b Paladin L, Hirsh L, Piovesan D, Andrade-Navarro MA, Kajava AV, Tosatto SC (leden 2017). „RepeatsDB 2.0: vylepšená anotace, klasifikace, vyhledávání a vizualizace struktur opakovaných proteinů“. Výzkum nukleových kyselin. 45 (D1): D308 – D312. doi:10.1093 / nar / gkw1136. PMC 5210593. PMID 27899671.
- ^ Stirnimann CU, Petsalaki E, Russell RB, Müller CW (říjen 2010). "Proteiny WD40 pohánějí buněčné sítě". Trendy v biochemických vědách. 35 (10): 565–74. doi:10.1016 / j.tibs.2010.04.003. PMID 20451393.
- ^ A b C Marcotte EM, Pellegrini M, Yeates TO, Eisenberg D (říjen 1999). "Sčítání proteinů se opakuje". Journal of Molecular Biology. 293 (1): 151–60. doi:10.1006 / jmbi.1999.3136. PMID 10512723.
- ^ Pellegrini M (2015). „Tandemové opakování v proteinech: predikční algoritmy a biologická role“. Hranice v bioinženýrství a biotechnologii. 3: 143. doi:10.3389 / fbioe.2015.00143. PMC 4585158. PMID 26442257.
- ^ A b Pellegrini M, Renda ME, Vecchio A (2012). "Ab initio detekce fuzzy aminokyselinových tandemových opakování v proteinových sekvencích". BMC bioinformatika. 13 Suppl 3: S8. doi:10.1186 / 1471-2105-13-S3-S8. PMC 3402919. PMID 22536906.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Andrade MA, Ponting CP, Gibson TJ, Bork P (2000). „Metoda identifikace opakování proteinů založená na homologii pomocí odhadů statistické významnosti“. J Mol Biol. 298 (3): 521–37. doi:10.1006 / jmbi.2000.3684. PMID 10772867.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC; et al. (2019). „Databáze proteinových rodin Pfam v roce 2019“. Nucleic Acids Res. 47 (D1): D427 – D432. doi:10.1093 / nar / gky995. PMC 6324024. PMID 30357350.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Mitchell AL, Attwood TK, Babbitt PC, Blum M, Bork P, most A; et al. (2019). „InterPro v roce 2019: zlepšení pokrytí, klasifikace a přístupu k anotacím sekvencí proteinů“. Nucleic Acids Res. 47 (D1): D351 – D360. doi:10.1093 / nar / gky1100. PMC 6323941. PMID 30398656.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ A b Mistry J, Coggill P, Eberhardt RY, Deiana A, Giansanti A, Finn RD; et al. (2013). „Výzva zvýšit pokrytí lidského proteomu Pfam“. Databáze (Oxford). 2013: bat023. doi:10.1093 / databáze / bat023. PMC 3630804. PMID 23603847.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Heger A, Holm L (2000). "Rychlá automatická detekce a zarovnání opakování v proteinových sekvencích". Proteiny. 41 (2): 224–37. doi:10.1002 / 1097-0134 (20001101) 41: 2 <224 :: aid-prot70> 3.0.co; 2-z. PMID 10966575.
- ^ Szklarczyk R, Heringa J (2004). „Sledování opakování pomocí významnosti a tranzitivity“. Bioinformatika. 20 Suppl 1: i311-7. doi:10.1093 / bioinformatika / bth911. PMID 15262814.
- ^ Newman AM, Cooper JB (2007). „XSTREAM: praktický algoritmus pro identifikaci a modelování architektury tandemových opakování v proteinových sekvencích“. BMC bioinformatika. 8: 382. doi:10.1186/1471-2105-8-382. PMC 2233649. PMID 17931424.
- ^ Jorda J, Kajava AV (2009). „T-REKS: identifikace tandemových opakování v sekvencích pomocí algoritmu založeného na K-meanS“. Bioinformatika. 25 (20): 2632–8. doi:10.1093 / bioinformatika / btp482. PMID 19671691.
- ^ Söding J, Remmert M, Biegert A (2006). „HHrep: detekce opakování bílkovin de novo a původ sudů TIM“. Nucleic Acids Res. 34 (Problém s webovým serverem): W137-42. doi:10.1093 / nar / gkl130. PMC 1538828. PMID 16844977.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Biegert A, Söding J (2008). „De novo identifikace vysoce odlišných opakování proteinů podle pravděpodobnostní konzistence“. Bioinformatika. 24 (6): 807–14. doi:10.1093 / bioinformatika / btn039. PMID 18245125.
- ^ Gruber M, Söding J, Lupas AN (2005). "REPPER - opakování a jejich periodicita ve vláknitých bílkovinách". Nucleic Acids Res. 33 (Problém s webovým serverem): W239-43. doi:10.1093 / nar / gki405. PMC 1160166. PMID 15980460.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Schaper E, Anisimova M (2015). „Vývoj a funkce proteinového tandemu se opakuje v rostlinách“. Nový Phytol. 206 (1): 397–410. doi:10.1111 / nph.13184. PMID 25420631.
- ^ Abraham AL, Rocha EP, Pothier J (2008). „Swelfe: detektor vnitřních opakování v sekvencích a strukturách“. Bioinformatika. 24 (13): 1536–7. doi:10.1093 / bioinformatika / btn234. PMC 2718673. PMID 18487242.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Sabarinathan R, Basu R, Sekar K (2010). „ProSTRIP: Metoda k nalezení podobných strukturních opakování v trojrozměrných proteinových strukturách“. Comput Biol Chem. 34 (2): 126–30. doi:10.1016 / j.compbiolchem.2010.03.006. PMID 20430700.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Walsh I, Sirocco FG, Minervini G, Di Domenico T, Ferrari C, Tosatto SC (2012). "RAPHAEL: rozpoznávání, periodicita a přiřazení přiřazení solenoidových proteinových struktur". Bioinformatika. 28 (24): 3257–64. doi:10.1093 / bioinformatika / bts550. PMID 22962341.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Hrabe T, Godzik A (2014). „ConSole: použití modularita kontaktních map k lokalizaci solenoidových domén v proteinových strukturách“. BMC bioinformatika. 15: 119. doi:10.1186/1471-2105-15-119. PMC 4021314. PMID 24766872.
- ^ Do Viet P, Roche DB, Kajava AV (2015). „TAPO: Kombinovaná metoda pro identifikaci tandemových opakování v proteinových strukturách“. FEBS Lett. 589 (19 Pt A): 2611–9. doi:10.1016 / j.febslet.2015.08.025. PMID 26320412. S2CID 28423787.CS1 maint: více jmen: seznam autorů (odkaz)