Weby s proteiny I. - Protein I-sites
I-stránky jsou krátké motivy sekvenční struktury které se těží z Proteinová datová banka (PDB), které silně korelují s trojrozměrnými strukturálními prvky. Tyto motivy sekvenční struktury se používají pro predikci lokální struktury proteinů. Místní struktura může být vyjádřena jako fragmenty nebo jako úhly páteře. Místa v proteinové sekvenci, která mají vysokou spolehlivost předpovědí I-míst, mohou být iniciačními místy skládací. I-stránky byly také identifikovány jako diskrétní modely skládacích drah. I-stránky se skládají z asi 250 motivů. Každý motiv má aminokyselinový profil, fragmentovou strukturu (představovanou fragmentem „paradigmatu“ vybraným z proteinu v PDB) a volitelně čtyřrozměrný tenzor párové sekvenční kovariance.
Výstavba knihovny I-site
Posloupnost a struktura databáze
Databáze původně sestávala ze 471 rodin proteinových sekvencí z databáze HSSP, s průměrem 47 seřazených sekvencí na rodinu. Každá rodina obsahovala jedinou známou strukturu (mateřskou) z Brookhavenské proteinové datové banky. Jednalo se o podmnožinu seznamu PDBSelect-25, která neměla více než 25% identitu sekvence mezi jakýmikoli dvěma zarovnáními. Neuspořádané smyčky byly vynechány. Mezery a vložení v sekvenci byly ignorovány.
Shlukování segmentů sekvence
Každá pozice v databázi je popsána váženou frekvencí aminokyselin. A opatření podobnosti v sekvenčním prostoru mezi segmentem (p) a shlukem segmentů (q) je definován jako:
kde Pij (p) je frekvence aminokyselin i v poloze j v segmentu p. Nq je počet segmentů sekvence k v klastru q. Fi je celková frekvence aminokyseliny typu i v databázi. Optimální hodnoty a a0 byly stanoveny empiricky na 0,5, respektive 15. Pomocí tohoto opatření podobnosti byly segmenty dané délky (3 až 15) seskupeny přes Algoritmus k-means.
Posuzování struktury v klastru; volba paradigmatu
Strukturní podobnost mezi jakýmikoli dvěma peptidovými segmenty byla hodnocena pomocí kombinace chyby matice vzdálenosti RMS (dme):
kde ai-> j je vzdálenost mezi atomy a-uhlíku i a j v segmentu s1 délky L a maximální odchylka v torzních úhlech páteře (mda) po délce segmentu je dána vztahem:
Struktura paradigmatu pro klastr byla vybrána z 20 nejlépe hodnocených segmentů v databázi jako struktura s nejmenším součtem hodnot mda k ostatním 19. Před usazením na tyto dva byly vyzkoušeny další strukturální opatření: RMS odchylka atomů a-uhlíku (rmsd), samotný dme a strukturální filtr, který hledal konkrétní konzervované kontakty. Ten druhý fungoval nejlépe při rozlišování pravdivých a nepravdivých pozitiv, ale nemohl být snadno automatizován. Bylo zjištěno, že rmsd a dme jsou špatnými diskriminátory dvou typů šroubovice. Kombinovaný filtr mda-dme nejlépe simuluje filtr konzervovaných kontaktů a je rychle vypočítán.
Reference
Bystroff, C; Baker, D (1998). „Predikce lokální struktury v proteinech pomocí knihovny motivů sekvenční struktury“ (PDF). Journal of Molecular Biology. 281 (3): 565–77. CiteSeerX 10.1.1.125.3690. doi:10.1006 / jmbi.1998.1943. PMID 9698570.