HH-suite - HH-suite

HH-suite
Vývojáři	Johannes Söding, Michael Remmert, Andreas Biegert, Andreas Hauser, Markus Meier, Martin Steinegger
Stabilní uvolnění	3.3.0 / 25. srpna 2020
Úložiště	github.com/ soedinglab/ hh-suite;
Napsáno	C ++
Operační systém	Unixový; Debian balíček k dispozici
K dispozici v	Angličtina
Typ	Bioinformatika nářadí
Licence	GPL v3
webová stránka	https://github.com/soedinglab/hh-suite

The HH-suite je open-source software balíček pro citlivé protein sekvenční vyhledávání. Obsahuje programy, které mohou vyhledávat podobné proteinové sekvence v databázích proteinových sekvencí. Hledání sekvencí je v moderní biologii standardním nástrojem, pomocí kterého lze odvodit funkci neznámých proteinů z funkcí proteinů s podobnými sekvencemi. HHsearch a HHblits jsou dva hlavní programy v balíčku a vstupní bod do jeho vyhledávací funkce, druhý je rychlejší iterace.^[2]^[3] HHpred je online server pro predikce proteinové struktury který používá informace o homologii z HH-suite.^[4]

HH-suite hledá sekvence pomocí skryté Markovovy modely (HMM). Název pochází ze skutečnosti, že provádí zarovnání HMM-HMM. Mezi nejoblíbenější metody pro shodu proteinových sekvencí byly programy citovány celkem více než 5 000krát Google Scholar.^[5]

Pozadí

Proteiny jsou ústředními hráči ve všech životních procesech. Jejich porozumění je zásadní pro pochopení molekulárních procesů v buňkách. To je zvláště důležité pro pochopení původu nemocí. Ale u velké části z přibližně 20 000 lidských proteinů zůstávají struktury a funkce neznámé. Mnoho proteinů bylo zkoumáno v modelových organismech, jako je mnoho bakterií, pekařské droždí, ovocné mušky, ryby zebry nebo myši, u nichž lze experimenty často provádět snadněji než s lidskými buňkami. Aby bylo možné předpovědět funkci, strukturu nebo jiné vlastnosti proteinu, pro který je známa pouze jeho sekvence aminokyselin, je proteinová sekvence porovnána se sekvencemi jiných proteinů ve veřejných databázích. Pokud se najde protein s dostatečně podobnou sekvencí, je pravděpodobné, že tyto dva proteiny budou evolučně příbuzné ("homologní" ). V takovém případě pravděpodobně sdílejí podobné struktury a funkce. Pokud tedy lze pomocí vyhledávání sekvencí najít protein s dostatečně podobnou sekvencí a se známými funkcemi a / nebo strukturou, lze předpovědět funkce, strukturu a složení neznámého proteinu. Takové předpovědi značně usnadňují stanovení funkce nebo struktury cílenými validačními experimenty.

Biologové často provádějí sekvenční vyhledávání, aby odvodili funkci neznámého proteinu z jeho sekvence. Za tímto účelem je sekvence proteinu porovnávána se sekvencemi jiných proteinů ve veřejných databázích a její funkce je odvozena od sekvencí nejpodobnějších sekvencí. Při takovém hledání často nelze najít žádné sekvence s anotovanými funkcemi. V tomto případě jsou vyžadovány citlivější metody k identifikaci vzdáleněji příbuzných proteinů nebo proteinové rodiny. Z těchto vztahů, hypotéz o funkcích proteinu, struktura, a složení domény lze odvodit. HHsearch provádí vyhledávání pomocí proteinové sekvence prostřednictvím databází. Server HHpred a softwarový balíček HH-suite nabízejí mnoho populárních pravidelně aktualizovaných databází, například Proteinová datová banka, stejně jako InterPro, Pfam, OZUBENÉ KOLO, a SCOP databáze.

Algoritmus

Iterativní schéma hledání sekvence HHblits

Moderní citlivé metody pro vyhledávání proteinů využívají sekvenční profily. Mohou být použity k porovnání sekvence s profilem, nebo v pokročilejších případech, jako je HH-suite, k porovnání mezi profily.^[2]^[6]^[7]^[8] Profily a zarovnání jsou samy o sobě odvozeny od shod, například pomocí PSI-BLAST nebo HHblits. A polohovací bodovací matice Profil (PSSM) obsahuje pro každou pozici v dotazované sekvenci skóre podobnosti pro 20 aminokyselin. Profily jsou odvozeny od vícenásobné zarovnání sekvence (MSA), ve kterých jsou příbuzné proteiny psány společně (srovnány), takže frekvence aminokyselin v každé poloze mohou být interpretovány jako pravděpodobnost aminokyselin v nových souvisejících proteinech a mohou být použity k odvození „skóre podobnosti“. Protože profily obsahují mnohem více informací než jedna sekvence (např. Stupeň zachování specifické pro danou pozici), jsou metody porovnání profilů a profilů mnohem účinnější než metody porovnání sekvencí a sekvencí, jako jsou VÝBUCH nebo metody porovnání sekvence profilů, jako je PSI-BLAST.^[6]

HHpred a HHsearch představují dotazové a databázové proteiny profilové skryté Markovovy modely (HMMs), rozšíření profilů sekvencí PSSM, které také zaznamenává frekvence specifické pro pozici a deleci aminokyselin. HHsearch prohledává databázi HMM pomocí dotazu HMM. Před zahájením vyhledávání ve skutečné databázi HMM sestaví HHsearch / HHpred a vícenásobné zarovnání sekvence sekvencí souvisejících s dotazovanou sekvencí / MSA pomocí programu HHblits. Z tohoto zarovnání se vypočítá profil HMM. Databáze obsahují HMM, které jsou předpočítány stejným způsobem pomocí PSI-BLAST. Výstupem HHpred a HHsearch je seřazený seznam databázových shod (včetně E-hodnot a pravděpodobností pro skutečný vztah) a párové zarovnání sekvence dotazu a databáze.

HHblits, součást HH-suite od roku 2001, staví na vysoké kvalitě vícenásobné zarovnání sekvence (MSAs) počínaje jednou sekvencí dotazu nebo MSA. Stejně jako v PSI-BLAST funguje iterativně, opakovaně vytváří nové profily dotazů přidáním výsledků nalezených v předchozím kole. Shoduje se s předem vytvořenými databázemi HMM odvozenými z databází sekvencí proteinů, z nichž každá představuje „shluk“ souvisejících proteinů. V případě HHblits se takové shody provádějí na úrovni profilů HMM-HMM, což zaručuje další citlivost. Jeho předfiltrování snižuje desítky milionů HMM, které se shodují s několika tisíci z nich, čímž se zrychluje pomalý srovnávací proces HMM-HMM.^[3]

Sada HH přichází s řadou předpřipravených profilů HMM, které lze prohledávat pomocí HHblits a HHsearch, mezi nimi je i seskupená verze UniProt databáze, Proteinová datová banka proteinů se známými strukturami, Pfam sladění proteinové rodiny, z SCOP strukturní proteinové domény a mnoho dalších.^[9]

Aplikace

Aplikace HHpred a HHsearch zahrnují predikci struktury proteinů, predikci komplexní struktury, predikci funkcí, predikci domén, predikci hranic domén a evoluční klasifikaci proteinů.^[10]

HHsearch se často používá pro homologické modelování, tj. Vytvořit model struktury dotazovaného proteinu, pro který je známa pouze jeho sekvence: Za tímto účelem byla vytvořena databáze proteinů se známými strukturami, jako je proteinová banka je hledán "templátový" protein podobný dotazovanému proteinu. Pokud je takový templátový protein nalezen, lze strukturu požadovaného proteinu předpovědět na základě párů zarovnání sekvence dotazu se sekvencí templátového proteinu. Například prohledávání PDB databáze proteinů s vyřešenou 3D strukturou trvá několik minut. Pokud je v databázi PDB nalezena významná shoda s proteinem známé struktury („šablona“), umožňuje HHpred uživateli sestavit model homologie pomocí MODELÁŘ software, počínaje párovým zarovnáním šablony dotazu.

Servery HHpred byly během roku zařazeny mezi nejlepší servery CASP 7, 8 a 9, pro experimenty s predikcí slepé struktury proteinů. V CASP9 se HHpredA, B a C umístily na 1., 2. a 3. místě z 81 zúčastněných serverů automatické predikce struktury v modelování založeném na šablonách^[11] a 6., 7., 8. na všech 147 cílech, přičemž jsou mnohem rychlejší než 20 nejlepších serverů.^[12] v CASP 8, HHpred se umístila na 7. místě u všech cílů a na 2. místě v podskupině proteinů s jednou doménou, přičemž byla stále více než 50krát rychlejší než nejlépe hodnocené servery.^[4]

Obsah

Kromě HHsearch a HHblits obsahuje sada HH programy a perl skripty pro převod formátu, filtrování MSA, generování HMM profilů, přidání předpovědí sekundární struktury k MSA, extrakci zarovnání z výstupu programu a generování přizpůsobené databáze.

hhblits	(Iterativně) prohledávejte databázi HHblits pomocí sekvence dotazů nebo MSA
hhsearch	Prohledejte databázi HHsearch HMM pomocí dotazu MSA nebo HMM
hhmake	Vytvořte HMM ze vstupního MSA
hhfilter	Filtrujte MSA podle maximální identity sekvence, pokrytí a dalších kritérií
hhalign	Vypočítejte párové zarovnání, tečkové grafy atd. Pro dvě HMM / MSA
reformat.pl	Přeformátujte jeden nebo více MSA
addss.pl	Přidat Psipred predikovaná sekundární struktura do souboru MSA nebo HHM
hhmakemodel.pl	Generujte MSA nebo hrubé 3D modely z výsledků HHsearch nebo HHblits
hhblitsdb.pl	Vytvářejte databázi HHblits s předfiltrováním, zabalenými soubory MSA / HMM a indexem
multithread.pl	Spusťte příkaz pro mnoho souborů současně pomocí více vláken
splitfasta.pl	Rozdělte soubor FASTA s více sekvencemi na několik souborů s jednou sekvencí
renumberpdb.pl	Generujte soubor PDB s přečíslovanými indexy tak, aby odpovídaly indexům vstupní sekvence

Algoritmus zarovnání HMM-HMM HHblits a HHsearch byl významně zrychlen pomocí vektorové pokyny ve verzi 3 sady HH.^[13]

Reference

^ Balíček debian hhsuite
^ ^A ^b Söding J (2005). "Detekce homologie proteinů porovnáním HMM-HMM". Bioinformatika. 21 (7): 951–960. doi:10.1093 / bioinformatika / bti125. PMID 15531603.
^ ^A ^b Remmert M, Biegert A, Hauser A, Söding J (2011). „HHblits: Bleskově rychlé iterativní vyhledávání proteinové sekvence podle HMM-HMM zarovnání“ (PDF). Nat. Metody. 9 (2): 173–175. doi:10,1038 / NMETH.1818. hdl:11858 / 00-001M-0000-0015-8D56-A. PMID 22198341. S2CID 205420247.
^ ^A ^b Söding J, Biegert A, Lupas AN (2005). „Interaktivní server HHpred pro detekci proteinové homologie a predikci struktury“. Výzkum nukleových kyselin. 33 (Problém s webovým serverem): W244–248. doi:10.1093 / nar / gki408. PMC 1160169. PMID 15980461.
^ Citace HHpred, na HHsearch, k HHblits
^ ^A ^b Jaroszewski L, Rychlewski L, Godzik A (2000). „Zlepšení kvality zarovnání soumrakové zóny“. Věda o bílkovinách. 9 (8): 1487–1496. doi:10.1110 / ps.9.8.1487. PMC 2144727. PMID 10975570.
^ Sadreyev RI, Baker D, Grishin NV (2003). „Porovnání profilů a profilů programem COMPASS předpovídají složité homologie mezi rodinami proteinů“. Věda o bílkovinách. 12 (10): 2262–2272. doi:10.1110 / ps.03197403. PMC 2366929. PMID 14500884.
^ Dunbrack RL Jr (2006). "Porovnání sekvence a predikce struktury proteinu". Aktuální názor na strukturní biologii. 16 (3): 374–384. doi:10.1016 / j.sbi.2006.05.006. PMID 16713709.
^ Li, Zhaoyu. „Několik poznámek k HHSuite“. Citováno 3. dubna 2019.
^ Guerler A, Govindarajoo B, Zhang Y (2013). "Mapování monomerních vláken na predikci struktury proteinů a proteinů". Journal of Chemical Information and Modeling. 53 (3): 717–25. doi:10.1021 / ci300579r. PMC 4076494. PMID 23413988.
^ Oficiální výsledky CASP9 pro kategorii modelování na základě šablon (121 cílů)
^ Oficiální výsledky CASP9 pro všech 147 cílů
^ Steinegger M, Meier M, Mirdita M, Vöhringer H, Haunsberger S, Söding J (2019). „HH-suite3 pro rychlou vzdálenou detekci homologie a hlubší anotaci proteinů“. BMC bioinformatika. 20 (1): 473. doi:10.1186 / s12859-019-3019-7. PMC 6744700. PMID 31521110.

Viz také

externí odkazy

Soeding Lab v Max-Planck Institute v Göttingenu - vývojáři HH-suite
Předkompilované binární soubory a databáze HH-suite stáhnout od vývojářů
HHpred - bezplatný server v Max-Planck Institute v Tübingenu
HHblits - bezplatný server v Max-Planck Institute v Tübingenu
Web CASP
Výsledky modelování založené na šabloně CASP9
Balíček debian HH-suite
Balíček ubuntu HH-suite
HH-suite arch linux uživatelské úložiště

[1] Balíček debian hhsuite

[hhsearch-2] A ^b Söding J (2005). "Detekce homologie proteinů porovnáním HMM-HMM". Bioinformatika. 21 (7): 951–960. doi:10.1093 / bioinformatika / bti125. PMID 15531603.

[hhblits-3] A ^b Remmert M, Biegert A, Hauser A, Söding J (2011). „HHblits: Bleskově rychlé iterativní vyhledávání proteinové sekvence podle HMM-HMM zarovnání“ (PDF). Nat. Metody. 9 (2): 173–175. doi:10,1038 / NMETH.1818. hdl:11858 / 00-001M-0000-0015-8D56-A. PMID 22198341. S2CID 205420247.

[hhpred-4] A ^b Söding J, Biegert A, Lupas AN (2005). „Interaktivní server HHpred pro detekci proteinové homologie a predikci struktury“. Výzkum nukleových kyselin. 33 (Problém s webovým serverem): W244–248. doi:10.1093 / nar / gki408. PMC 1160169. PMID 15980461.

[5] Citace HHpred, na HHsearch, k HHblits

[pmid10975570-6] A ^b Jaroszewski L, Rychlewski L, Godzik A (2000). „Zlepšení kvality zarovnání soumrakové zóny“. Věda o bílkovinách. 9 (8): 1487–1496. doi:10.1110 / ps.9.8.1487. PMC 2144727. PMID 10975570.

[7] Sadreyev RI, Baker D, Grishin NV (2003). „Porovnání profilů a profilů programem COMPASS předpovídají složité homologie mezi rodinami proteinů“. Věda o bílkovinách. 12 (10): 2262–2272. doi:10.1110 / ps.03197403. PMC 2366929. PMID 14500884.

[8] Dunbrack RL Jr (2006). "Porovnání sekvence a predikce struktury proteinu". Aktuální názor na strukturní biologii. 16 (3): 374–384. doi:10.1016 / j.sbi.2006.05.006. PMID 16713709.

[9] Li, Zhaoyu. „Několik poznámek k HHSuite“. Citováno 3. dubna 2019.

[10] Guerler A, Govindarajoo B, Zhang Y (2013). "Mapování monomerních vláken na predikci struktury proteinů a proteinů". Journal of Chemical Information and Modeling. 53 (3): 717–25. doi:10.1021 / ci300579r. PMC 4076494. PMID 23413988.

[11] Oficiální výsledky CASP9 pro kategorii modelování na základě šablon (121 cílů)

[12] Oficiální výsledky CASP9 pro všech 147 cílů

[bioRxiv560029-13] Steinegger M, Meier M, Mirdita M, Vöhringer H, Haunsberger S, Söding J (2019). „HH-suite3 pro rychlou vzdálenou detekci homologie a hlubší anotaci proteinů“. BMC bioinformatika. 20 (1): 473. doi:10.1186 / s12859-019-3019-7. PMC 6744700. PMID 31521110.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]