Strukturální zarovnání - Structural alignment

Strukturální zarovnání pokusy o založení homologie mezi dvěma nebo více polymer struktury založené na jejich tvaru a trojrozměrnosti konformace. Na tento proces se obvykle vztahuje protein terciární struktury ale lze je použít i pro velké RNA molekuly. Na rozdíl od jednoduché strukturní superpozice, kde jsou známy alespoň některé ekvivalentní zbytky těchto dvou struktur, strukturální vyrovnání vyžaduje ne a priori znalost rovnocenných pozic. Strukturální zarovnání je cenným nástrojem pro srovnání proteinů s nízkou sekvenční podobností, kde standardně nelze snadno detekovat evoluční vztahy mezi proteiny zarovnání sekvence techniky. Lze tedy použít strukturální vyrovnání evoluční vztahy mezi proteiny, které mají velmi malou společnou sekvenci. Při použití výsledků jako důkazu sdíleného evolučního původu je však třeba postupovat opatrně kvůli možným matoucím účinkům konvergentní evoluce kterým několik nesouvisí aminokyselina sekvence konvergují na společné terciární struktura.
Strukturální zarovnání může porovnávat dvě sekvence nebo více sekvencí. Protože se tato zarovnání spoléhají na informace o trojrozměrných konformacích všech sekvencí dotazu, lze metodu použít pouze u sekvencí, kde jsou tyto struktury známé. Obvykle je najde Rentgenová krystalografie nebo NMR spektroskopie. Je možné provést strukturální vyrovnání na strukturách produkovaných predikce struktury metody. Vyhodnocení takových předpovědí ve skutečnosti často vyžaduje strukturální vyrovnání mezi modelem a skutečně známou strukturou, aby bylo možné posoudit kvalitu modelu.[1] Strukturální zarovnání je zvláště užitečné při analýze dat z strukturní genomika a proteomika úsilí a mohou být použity jako srovnávací body k vyhodnocení zarovnání vytvořených čistě na základě sekvence bioinformatika metody.[2][3][4]
Výstupy strukturního vyrovnání jsou superpozicí atomu sady souřadnic a minimální střední kvadratická odchylka (RMSD ) mezi strukturami. RMSD dvou seřazených struktur naznačuje jejich vzájemné odlišnosti. Strukturální zarovnání může být komplikováno existencí více proteinové domény v rámci jedné nebo více vstupních struktur, protože změny relativní orientace domén mezi dvěma strukturami, které mají být zarovnány, mohou uměle nafouknout RMSD.
Data vytvořená strukturálním zarovnáním
Minimální informace získané z úspěšného strukturálního vyrovnání je sada zbytků, které jsou považovány za rovnocenné mezi strukturami. Tato sada ekvivalencí se potom obvykle používá k superpozici trojrozměrných souřadnic pro každou vstupní strukturu. (Všimněte si, že jeden vstupní prvek může být fixován jako reference, a proto se jeho superponované souřadnice nezmění.) Přizpůsobené struktury lze použít k výpočtu vzájemných hodnot RMSD a dalších sofistikovanějších opatření strukturální podobnosti, jako je globální test vzdálenosti (GDT,[5] metrika použitá v CASP ). Strukturální zarovnání také implikuje odpovídající jednorozměrný zarovnání sekvence ze kterého lze vypočítat identitu sekvence nebo procento zbytků, které jsou stejné mezi vstupními strukturami, jako měřítko toho, jak úzce jsou tyto dvě sekvence příbuzné.
Druhy srovnání
Protože proteinové struktury jsou složeny z aminokyseliny jehož boční řetězy jsou spojeny společným proteinovým páteřem, může být použita řada různých možných podmnožin atomů, které tvoří proteinovou makromolekulu, při vytváření strukturního uspořádání a výpočtu odpovídajících hodnot RMSD. Při srovnávání struktur s velmi odlišnými sekvencemi nejsou atomy postranního řetězce obecně brány v úvahu, protože jejich identita se mezi mnoha zarovnanými zbytky liší. Z tohoto důvodu je běžné, že metody strukturního zarovnání používají ve výchozím nastavení pouze atomy páteře obsažené v peptidová vazba. Pro jednoduchost a efektivitu, často pouze alfa uhlík jsou brány v úvahu polohy, protože peptidová vazba má minimálně variantu rovinný konformace. Pouze v případě, že struktury, které mají být srovnány, jsou vysoce podobné nebo dokonce identické, má smysl srovnávat pozice atomů postranního řetězce, v takovém případě RMSD odráží nejen konformaci páteře proteinu, ale také rotamerické stavy postranních řetězců. Mezi další srovnávací kritéria, která snižují hluk a podporují pozitivní shody, patří sekundární struktura úkol, nativní kontakt mapy nebo vzory interakce zbytků, míry balení postranního řetězce a míry vodíková vazba zadržení.[6]
Strukturální superpozice
Nejzákladnější možné srovnání mezi proteinovými strukturami se nepokouší sladit vstupní struktury a vyžaduje předem vypočítané vyrovnání jako vstup, aby se určilo, které ze zbytků v sekvenci mají být brány v úvahu při výpočtu RMSD. Strukturní superpozice se běžně používá k porovnání více konformací stejného proteinu (v takovém případě není nutné žádné seřazení, protože sekvence jsou stejné) a k vyhodnocení kvality seřazení vytvořených pouze pomocí informací o sekvenci mezi dvěma nebo více sekvencemi, jejichž struktury jsou známé . Tato metoda tradičně používá jednoduchý algoritmus přizpůsobení nejmenších čtverců, ve kterém jsou optimální rotace a překlady nalezeny minimalizací součtu čtverců vzdáleností mezi všemi strukturami v superpozici.[7] Více nedávno, maximální věrohodnost a Bayesovské metody značně zvýšily přesnost odhadovaných rotací, překladů a kovariančních matic pro superpozici.[8][9]
Algoritmy založené na vícerozměrných rotacích a upravené čtveřice byly vyvinuty k identifikaci topologických vztahů mezi proteinovými strukturami bez nutnosti předem určeného vyrovnání. Takové algoritmy úspěšně identifikovaly kanonické záhyby, jako například svazek čtyř šroubovic.[10] The SuperPose metoda je dostatečně rozšiřitelná, aby korigovala relativní rotace domén a další strukturální úskalí.[11]
Hodnocení podobnosti
Účelem hledání strukturální superpozice často není ani tak superpozice samotná, ale vyhodnocení podobnosti dvou struktur nebo důvěra ve vzdálené vyrovnání.[1][2][3] Jemným, ale důležitým rozdílem od maximální strukturální superpozice je převod zarovnání na smysluplné skóre podobnosti.[12][13] Většina metod vydává jakési „skóre“ označující kvalitu superpozice.[5] [14] [15][12][13] Co však člověk vlastně chce, je ne pouze odhadovaný „Z-skóre“ nebo an odhadovaný E-hodnota náhodného pozorování pozorované superpozice, ale místo toho si přeje, aby odhadovaný E-hodnota úzce souvisí se skutečnou E-hodnotou. Kriticky, i když je odhadovaná E-hodnota metody přesně správná v průměru, pokud postrádá nízkou směrodatnou odchylku od procesu generování odhadované hodnoty, bude pořadí řazení relativních podobností dotazovaného proteinu se srovnávací sadou zřídka souhlasit s "skutečným" uspořádáním.[12][13]
Různé metody překrývají různý počet reziduí, protože používají různé záruky kvality a různé definice „překrytí“; některé zahrnují pouze zbytky splňující více místních a globálních kritérií pro superpozici a jiné jsou chamtivější, pružnější a promiskuitnější. Větší počet superponovaných atomů může znamenat větší podobnost, ale nemusí vždy produkovat nejlepší E-hodnotu kvantifikující nepravděpodobnost superpozice, a tedy není tak užitečný pro posouzení podobnosti, zejména u vzdálených homologů.[1][2][3][4]
Algoritmická složitost
Optimální řešení
Optimální “závitování "proteinové sekvence na známou strukturu a produkce optimálního vícenásobného seřazení sekvencí se ukázaly být." NP-kompletní.[16][17] To však neznamená, že problém strukturálního vyrovnání je NP-úplný. Přísně vzato, optimální řešení problému se sladěním proteinové struktury je známé pouze pro určitá opatření podobnosti proteinové struktury, jako jsou opatření použitá v experimentech predikce proteinové struktury, GDT_TS[5] a MaxSub.[14] Tato opatření lze přísně optimalizovat pomocí algoritmu schopného maximalizovat počet atomů ve dvou proteinech, které lze superponovat pod předem definovanou mezní hodnotu vzdálenosti.[15] Algoritmus pro optimální řešení bohužel není praktický, protože jeho doba běhu závisí nejen na délkách, ale také na vnitřní geometrii vstupních proteinů.
Přibližné řešení
Přibližný polynomiální čas byly vyvinuty algoritmy pro strukturální zarovnání, které vytvářejí rodinu „optimálních“ řešení v rámci aproximačního parametru pro danou skórovací funkci.[15][18] Ačkoli tyto algoritmy teoreticky klasifikují problém s přibližným uspořádáním proteinové struktury jako „zpracovatelný“, jsou stále výpočetně příliš drahé pro analýzu struktury proteinů ve velkém měřítku. V důsledku toho neexistují praktické algoritmy, které konvergují ke globálním řešením zarovnání, vzhledem k bodovací funkci. Většina algoritmů je tedy heuristická, ale byly vyvinuty algoritmy, které zaručují konvergenci přinejmenším lokálních maximalizátorů skórovacích funkcí a jsou praktické.[19]
Reprezentace struktur
Proteinové struktury musí být zastoupeny v nějakém prostoru nezávislém na souřadnicích, aby byly srovnatelné. Toho je obvykle dosaženo konstrukcí matice sekvence sekvence nebo řady matic, které obsahují srovnávací metriky: spíše než absolutní vzdálenosti vzhledem k pevnému souřadnicovému prostoru. Intuitivní reprezentace je matice vzdálenosti, což je dvourozměrný matice obsahující všechny párové vzdálenosti mezi nějakou podmnožinou atomů v každé struktuře (například alfa uhlíky ). Matice se zvyšuje v rozměrnosti, jak se zvyšuje počet struktur, které mají být současně zarovnány. Redukce proteinu na hrubou metriku, jako je sekundární struktura prvky (SSE) nebo strukturní fragmenty mohou také vytvářet rozumné sladění, a to navzdory ztrátě informací z výmětových vzdáleností, protože hluk je také vyřazen.[20] Výběr reprezentace pro usnadnění výpočtu je pro vývoj efektivního mechanismu zarovnání zásadní.
Metody
Techniky strukturálního zarovnávání byly použity při porovnávání jednotlivých struktur nebo sad struktur, jakož i při výrobě srovnávacích databází typu „všichni na všechny“, které měří rozdíly mezi každou dvojicí struktur přítomných v Proteinová datová banka (PDB). Takové databáze se používají ke klasifikaci proteinů podle jejich složit.
DALI

Běžnou a populární metodou strukturálního zarovnání je metoda DALI neboli Distance-matrix ALIgnment, která rozděluje vstupní struktury na hexapeptidové fragmenty a vypočítává matici vzdálenosti vyhodnocením kontaktních vzorů mezi po sobě následujícími fragmenty.[21] Sekundární struktura funkce, které zahrnují zbytky, které sousedí v pořadí, se objeví na matici hlavní úhlopříčka; další úhlopříčky v matici odrážejí prostorové kontakty mezi zbytky, které nejsou v sekvenci blízko sebe. Když jsou tyto úhlopříčky rovnoběžné s hlavní úhlopříčkou, jsou prvky, které představují, rovnoběžné; když jsou kolmé, jejich rysy jsou antiparalelní. Toto znázornění je náročné na paměť, protože prvky ve čtvercové matici jsou symetrické (a tedy nadbytečné) kolem hlavní úhlopříčky.
Když distanční matice dvou proteinů sdílejí stejné nebo podobné rysy v přibližně stejných pozicích, lze říci, že mají podobné záhyby se smyčkami podobné délky spojujícími jejich prvky sekundární struktury. Skutečný proces vyrovnání DALI vyžaduje hledání podobnosti po sestavení distančních matic obou proteinů; to se normálně provádí prostřednictvím řady překrývajících se submatric o velikosti 6x6. Submatrix zápasy jsou poté znovu sestaveny do konečného zarovnání pomocí standardního algoritmu pro maximalizaci skóre - původní verze DALI používala Monte Carlo simulace k maximalizaci skóre strukturální podobnosti, které je funkcí vzdáleností mezi domněle odpovídajícími atomy. Zejména vzdálenější atomy v odpovídajících funkcích jsou exponenciálně sníženy, aby se snížily účinky hluku způsobeného pohyblivostí smyčky, torzemi šroubovice a dalšími menšími strukturálními variacemi.[20] Protože DALI spoléhá na matici vzdálenosti vše-na-všechny, může zohlednit možnost, že by se strukturálně zarovnané prvky mohly objevit v různých pořadích v rámci dvou sekvencí, které se porovnávají.
Metoda DALI byla také použita ke konstrukci databáze známé jako FSSP (Skládací klasifikace založená na uspořádání struktury a struktury proteinů nebo rodin strukturně podobných proteinů), ve kterém jsou všechny známé proteinové struktury vzájemně srovnány, aby se určily jejich strukturní sousedé a klasifikace skládání. Tady je prohledávatelná databáze na základě DALI stejně jako a program ke stažení a webové vyhledávání založené na samostatné verzi známé jako DaliLite.
Kombinatorické prodloužení
Metoda kombinatorického rozšíření (CE) je podobná metodě DALI v tom, že také rozbije každou strukturu v sadě dotazů na řadu fragmentů, které se poté pokusí znovu sestavit do úplného zarovnání. Řada párových kombinací fragmentů, které se nazývají páry zarovnaných fragmentů nebo AFP, se používá k definování matice podobnosti, pomocí které se generuje optimální cesta k identifikaci konečného zarovnání. Do matice jsou zahrnuty pouze AFP, které splňují daná kritéria pro místní podobnost jako prostředek ke zmenšení potřebného prostoru pro vyhledávání a tím ke zvýšení efektivity.[22] Je možná řada metrik podobnosti; původní definice metody CE zahrnovala pouze strukturní superpozice a vzdálenosti mezi zbytky, ale od té doby byla rozšířena o místní vlastnosti prostředí, jako je sekundární struktura, expozice rozpouštědlu, vzorce vodíkových vazeb a vzepětí.[22]
Cesta zarovnání se vypočítá jako optimální cesta skrz matici podobnosti lineárním postupem skrz sekvence a prodloužením zarovnání s dalším možným párem AFP s vysokým skóre. Počáteční pár AFP, který nukleaty zarovnání může nastat v kterémkoli bodě v sekvenční matici. Rozšíření poté pokračují dalším AFP, který splňuje daná kritéria vzdálenosti omezující zarovnání na malé velikosti mezer. Velikost každého AFP a maximální velikost mezery jsou požadovanými vstupními parametry, ale jsou obvykle nastaveny na empiricky určené hodnoty 8, respektive 30.[22] Stejně jako DALI a SSAP byl CE použit ke konstrukci all-to-all fold klasifikace databáze ze známých proteinových struktur v PDB.
The RCSB PDB nedávno vydal aktualizovanou verzi CE, Mammoth a FATCAT jako součást Nástroj pro srovnání proteinů RCSB PDB. Poskytuje novou variantu CE, která dokáže detekovat kruhové obměny v proteinových strukturách.[23]
Mamut
MAMUT [12] přistupuje k problému sladění z jiného cíle než téměř všechny ostatní metody. Spíše než se snažit najít zarovnání, které maximálně překrývá největší počet zbytků, hledá podmnožinu strukturního zarovnání, u které je nejméně pravděpodobné, že k ní dojde náhodou. K tomu označí zarovnání lokálního motivu s příznaky, které označují, které zbytky současně splňují přísnější kritéria: 1) Překrytí lokální struktury 2) pravidelná sekundární struktura 3) 3D superpozice 4) stejné pořadí v primární sekvenci. Převádí statistiku počtu reziduí s vysoce spolehlivými shodami a velikostí proteinu, aby náhodně vypočítal hodnotu očekávání výsledku. Vyniká v přizpůsobování vzdálených homologů, zejména struktur generovaných predikcí struktury ab initio rodinám struktur, jako je SCOP, protože zdůrazňuje extrakci statisticky spolehlivého dílčího zarovnání a ne při dosažení maximálního zarovnání sekvence nebo maximální 3D superpozice.[2][3]
Pro každé překrývající se okno 7 po sobě jdoucích zbytků vypočítá sadu vektorů jednotek směru posunu mezi sousedními zbytky C-alfa. Místní motivy proti všem jsou porovnány na základě skóre URMS. Tyto hodnoty se stanou položkami skóre párování zarovnání pro dynamické programování, které produkuje zarovnání zbytků párem semen. Druhá fáze používá upravený algoritmus MaxSub: jeden orientovaný pár 7 reziduí v každém proteinu se používá k orientaci dvou proteinových struktur o celé délce tak, aby maximálně překrývaly právě tyto 7 C-alfa, pak v této orientaci vyhledá všechny další zarovnané páry které jsou blízko ve 3D. Změní orientaci struktur tak, aby tuto rozšířenou sadu překrývaly, a iteruje, dokud se žádné další páry neshodují ve 3D. Tento proces se restartuje pro každých 7 zbytkových oken v zarovnání osiva. Výstupem je maximální počet atomů nalezených v kterémkoli z těchto počátečních semen. Tato statistika se převede na kalibrovanou E-hodnotu pro podobnost proteinů.
Mamut se nepokouší znovu iterovat počáteční zarovnání nebo rozšířit vysoce kvalitní podmnožinu. Zarovnání osiva, které zobrazuje, tedy nelze spravedlivě srovnávat s vyrovnáním DALI nebo TM, protože bylo vytvořeno jednoduše jako heuristika k prořezání vyhledávacího prostoru. (Lze jej použít, pokud si přejete zarovnání založené pouze na agnostice místní podobnosti struktury a motivu atomového zarovnání tuhého těla s dlouhým dosahem.) Kvůli stejné šetrnosti je mnohem více než desetkrát rychlejší než DALI, CE a TM-align. [24]Často se používá ve spojení s těmito pomalejšími nástroji k předběžnému screeningu velkých databází k extrakci těch nejlepších struktur souvisejících s E-hodnotou pro vyčerpávající superpozici nebo nákladné výpočty. [25][26]
Obzvláště úspěšný byl při analýze „návnadových“ struktur z predikce struktur ab initio.[1][2][3] Tyto návnady jsou proslulé tím, že dostávají správnou strukturu motivů místních fragmentů a vytvářejí některá jádra správné 3D terciární struktury, ale způsobují nesprávnou terciární strukturu celé délky. V tomto režimu vzdálené homologie za soumraku jsou Mammothovy e-hodnoty pro CASP[1] Bylo prokázáno, že hodnocení predikce proteinové struktury významně více korelovalo s hodnocením člověka než SSAP nebo DALI.[12] Schopnost mamutů extrahovat multikriteriální částečné překryvy s proteiny známé struktury a hodnotit je správnými hodnotami E v kombinaci s jeho rychlostí usnadňuje skenování obrovského počtu návnadových modelů proti databázi PDB pro identifikaci nejpravděpodobnějších správných návnad na základě jejich vzdálená homologie se známými proteiny. [2]
SSAP
Metoda SSAP (Sequential Structure Alignment Program) používá dvojnásobek dynamické programování k vytvoření strukturálního vyrovnání založeného na atomu k atomu vektory v prostoru struktury. Místo alfa atomů uhlíku, které se obvykle používají ve strukturálním uspořádání, SSAP konstruuje své vektory z beta uhlíky pro všechny zbytky kromě glycinu, metoda, která tedy bere v úvahu rotamerní stav každého zbytku a také jeho umístění podél páteře. SSAP funguje tak, že nejprve se zkonstruuje řada vektorů vzdálenosti mezi zbytky mezi každým zbytkem a jeho nejbližšími nesousedícími sousedy na každém proteinu. Poté se zkonstruuje řada matic obsahujících rozdíly vektorů mezi sousedy pro každou dvojici zbytků, pro které byly vektory konstruovány. Dynamické programování aplikované na každou výslednou matici určuje řadu optimálních lokálních zarovnání, které se poté sečtou do „souhrnné“ matice, na kterou se znovu použije dynamické programování k určení celkového strukturálního zarovnání.
SSAP původně produkoval pouze párové zarovnání, ale od té doby byl rozšířen také na více zarovnání.[27] Bylo použito způsobem all-to-all k vytvoření hierarchického schématu klasifikace skládání známého jako KOCOUR (Třída, architektura, topologie, homologie),[28] který byl použit ke konstrukci Klasifikace proteinové struktury CATH databáze.
Nedávný vývoj
Vylepšení metod strukturálního přizpůsobení představuje aktivní oblast výzkumu a často se navrhují nové nebo upravené metody, o nichž se tvrdí, že nabízejí výhody oproti starším a široce distribuovaným technikám. Nedávný příklad, TM-align, používá novou metodu vážení své distanční matice, na kterou standard dynamické programování poté se použije.[29][13] Vážení je navrženo k urychlení konvergence dynamického programování a korekci účinků plynoucích z délek zarovnání. Ve srovnávací studii bylo oznámeno, že TM-align zlepšuje rychlost i přesnost oproti DALI a CE.[29]
Dalšími slibnými metodami strukturálního vyrovnání jsou lokální metody strukturálního vyrovnání. Poskytují srovnání předem vybraných částí proteinů (např. Vazebná místa, uživatelem definované strukturní motivy) [30][31][32] proti vazebným místům nebo celoproteinovým strukturálním databázím. Servery MultiBind a MAPPIS [32][33] umožnit identifikaci běžných prostorových uspořádání fyzikálně-chemických vlastností, jako je donor H-vazby, akceptor, alifatické, aromatické nebo hydrofobní, v sadě uživatelských vazebných míst pro proteiny definovaných interakcemi s malými molekulami (MultiBind) nebo v sadě uživatelem poskytnutých rozhraní protein – protein (MAPPIS). Jiné poskytují srovnání celých proteinových struktur [34] proti řadě struktur předložených uživateli nebo proti velké databázi proteinových struktur v rozumném čase (ProBiS[35]). Na rozdíl od globálních srovnávacích přístupů jsou lokální strukturální srovnávací přístupy vhodné k detekci lokálně konzervovaných vzorců funkčních skupin, které se často objevují ve vazebných místech a významně se účastní vazby ligandů.[33] Jako příklad, porovnání G-Losa,[36] nástroj pro lokální zarovnání struktury s TM-align, metoda založená na globálním zarovnání struktury. Zatímco G-Losa předpovídá pozice ligandů podobných lékům v jednořetězcových proteinových cílech přesněji než TM-align, celková úspěšnost TM-align je lepší.[37]
Jelikož však algoritmická vylepšení a výkon počítače odstranily čistě technické nedostatky starších přístupů, ukázalo se, že neexistuje žádné univerzální kritérium pro „optimální“ strukturální vyrovnání. Například TM-align je obzvláště robustní při kvantifikaci srovnání mezi sadami proteinů s velkými rozdíly v délkách sekvencí, ale pouze nepřímo zachycuje vodíkové vazby nebo zachování pořadí sekundární struktury, což by mohlo být lepší metrikou pro srovnání evolučně příbuzných proteinů. Nedávný vývoj se tedy zaměřil na optimalizaci konkrétních atributů, jako je rychlost, kvantifikace skóre, korelace s alternativními zlatými standardy nebo tolerance nedokonalosti ve strukturálních datech nebo strukturálních modelech ab initio. Alternativní metodikou, která si získává popularitu, je použití shoda různých metod pro zjištění strukturních podobností proteinů.[38]
![]() | Tato sekce potřebuje expanzi s: přidat diskusi o následujících tématech: A) flexibilní zarovnání vs. tuhé tělo B) závislé na pořadí sekvencí vs. nezávislé C) zarovnání biologických sestav[39]. Můžete pomoci přidávat k tomu. (Červenec 2012) |
Strukturální zarovnání RNA
Techniky strukturního vyrovnání se tradičně používají výhradně na proteiny jako primární biologické makromolekuly které předpokládají charakteristické trojrozměrné struktury. Nicméně velký RNA molekuly také tvoří charakteristické terciární struktur, které jsou zprostředkovány především Vodíkové vazby vytvořené mezi základní páry stejně jako základní stohování. Funkčně podobné nekódující RNA může být obzvláště obtížné extrahovat molekuly genomika data, protože struktura je silněji konzervovaná než sekvence v RNA i v proteinech,[40] a omezenější abeceda RNA snižuje informační obsah kteréhokoli z nich nukleotid v jakékoli dané poloze.
Avšak kvůli rostoucímu zájmu o struktury RNA a kvůli nárůstu počtu experimentálně určených struktur 3D RNA bylo v poslední době vyvinuto několik metod podobnosti struktury RNA. Jednou z těchto metod je např. SETTER[41] který rozkládá každou strukturu RNA na menší části zvané obecné jednotky sekundární struktury (GSSU). GSSU se následně srovnají a tato částečná vyrovnání se sloučí do konečného zarovnání struktury RNA a vyhodnotí se. Metoda byla implementována do Webový server SETTER.[42]
V programu byla publikována a implementována nedávná metoda párového strukturního zarovnání sekvencí RNA s nízkou sekvenční identitou FOLDALIGN.[43] Tato metoda však není skutečně analogická s technikami strukturálního srovnávání proteinů, protože výpočetně předpovídá struktury vstupních sekvencí RNA, spíše než vyžaduje experimentálně určené struktury jako vstup. Ačkoli výpočetní predikce skládání bílkovin proces dosud nebyl nijak zvlášť úspěšný, bez RNA struktur pseudoknoty lze často rozumně předvídat pomocí energie zdarma - založené na bodovacích metodách, které zohledňují párování a stohování bází.[44]
Software
Výběr softwarového nástroje pro vyrovnání struktur může být výzvou kvůli velké škále dostupných balíčků, které se výrazně liší metodikou a spolehlivostí. Částečné řešení tohoto problému bylo představeno v [38] a veřejně přístupné prostřednictvím webového serveru ProCKSI. Úplnější seznam aktuálně dostupného a volně distribuovaného softwaru pro konstrukční vyrovnání najdete v software pro vyrovnávání struktur.
Vlastnosti některých serverů a softwarových balíků pro strukturální zarovnání jsou shrnuty a testovány pomocí příkladů na adrese Nástroje pro strukturální vyrovnání v Proteopedia.Org.
Viz také
Reference
- ^ A b C d E Kryshtafovych A, Monastyrskyy B, Fidelis K. (2016). "Statistiky CASP11 a systém hodnocení predikčního centra." " Proteiny. 84: (Suppl 1): 15-19. doi:10,1002 / prot. 25005.CS1 maint: používá parametr autoři (odkaz)
- ^ A b C d E F Lars Malmström Michael Riffle, Charlie EM Strauss, Dylan Chivian, Trisha N Davis, Richard Bonneau, David Baker (2007). „Přiřazení superrodiny kvasinkovému proteomu prostřednictvím integrace predikce struktury s genovou ontologií“. PLoS Biol. 5 (4): e76odpovídající autor1, 2. doi:10.1371 / journal.pbio.0050076.CS1 maint: používá parametr autoři (odkaz)
- ^ A b C d E David E. Kim, Dylan Chivian a David Baker (2004). "Predikce a analýza proteinové struktury pomocí serveru Robetta". Výzkum nukleových kyselin. 32 (problém s webovým serverem): W526 – W531. doi:10.1093 / nar / gkh468. PMID 15215442.CS1 maint: používá parametr autoři (odkaz)
- ^ A b Zhang Y, Skolnick J (2005). „Problém predikce proteinové struktury lze vyřešit pomocí aktuální knihovny PDB“. Proc Natl Acad Sci USA. 102 (4): 1029–34. doi:10.1073 / pnas.0407152101. PMC 545829. PMID 15653774.
- ^ A b C Zemla A. (2003). „LGA - metoda pro zjištění 3D podobností v proteinových strukturách“. Výzkum nukleových kyselin. 31 (13): 3370–3374. doi:10.1093 / nar / gkg 571. PMC 168977. PMID 12824330.
- ^ Godzik A (1996). „Strukturální vyrovnání mezi dvěma proteiny: Existuje jedinečná odpověď?“. Věda o bílkovinách. 5 (7): 1325–38. doi:10.1002 / pro.5560050711. PMC 2143456. PMID 8819165.
- ^ Martin ACR (1982). "Rychlé srovnání proteinových struktur". Acta Crystallogr A. 38 (6): 871–873. doi:10.1107 / S0567739482001806.
- ^ Theobald DL, Wuttke DS (2006). „Empirické Bayesovy hierarchické modely pro regularizaci odhadu maximální pravděpodobnosti v maticovém problému Gaussian Procrustes“. Sborník Národní akademie věd. 103 (49): 18521–18527. doi:10.1073 / pnas.0508445103. PMC 1664551. PMID 17130458.
- ^ Theobald DL, Wuttke DS (2006). „THESEUS: Maximální pravděpodobnost superpozice a analýza makromolekulárních struktur“. Bioinformatika. 22 (17): 2171–2172. doi:10.1093 / bioinformatika / btl332. PMC 2584349. PMID 16777907.
- ^ Diederichs K. (1995). „Strukturální superpozice proteinů s neznámým zarovnáním a detekcí topologické podobnosti pomocí šestidimenzionálního vyhledávacího algoritmu“. Proteiny. 23 (2): 187–95. doi:10,1002 / prot. 340230208. PMID 8592700.
- ^ Maiti R, Van Domselaar GH, Zhang H, Wishart DS (2004). „SuperPose: jednoduchý server pro sofistikovanou strukturální superpozici“. Nucleic Acids Res. 32 (Problém s webovým serverem): W590–4. doi:10.1093 / nar / gkh477. PMC 441615. PMID 15215457.
- ^ A b C d E Ortiz, AR; Strauss CE; Olmea O. (2002). „MAMMOTH (shoda molekulárních modelů získaných z teorie): automatizovaná metoda pro srovnání modelů“. Věda o bílkovinách. 11 (11): 2606–2621. doi:10.1110 / ps.0215902. PMID 12381844.
- ^ A b C d Zhang Y, Skolnick J (2004). "Skórovací funkce pro automatické hodnocení kvality šablony proteinové struktury". Proteiny. 57 (4): 702–710. doi:10,1002 / prot.20264. PMID 15476259.
- ^ A b Siew N, Elofsson A, Rychlewsk L, Fischer D (2000). „MaxSub: automatizované opatření pro hodnocení kvality predikce proteinové struktury“. Bioinformatika. 16 (9): 776–85. doi:10.1093 / bioinformatika / 16.9.776. PMID 11108700.
- ^ A b C Poleksic A (2009). "Algoritmy pro optimální vyrovnání struktury proteinů". Bioinformatika. 25 (21): 2751–2756. doi:10.1093 / bioinformatika / btp530. PMID 19734152.
- ^ Lathrop RH. (1994). „Problém s navlékáním proteinů s preferencemi interakce aminokyselin sekvence je NP-úplný“. Protein Eng. 7 (9): 1059–68. CiteSeerX 10.1.1.367.9081. doi:10.1093 / protein / 7.9.1059. PMID 7831276.
- ^ Wang L, Jiang T (1994). Msgstr "O složitosti vícenásobného seřazení sekvencí". Journal of Computational Biology. 1 (4): 337–48. CiteSeerX 10.1.1.408.894. doi:10.1089 / cmb.1994.1.337. PMID 8790475.
- ^ Kolodny R, Linial N (2004). „Přibližné strukturní vyrovnání proteinu v polynomiálním čase“. PNAS. 101 (33): 12201–12206. doi:10.1073 / pnas.0404383101. PMC 514457. PMID 15304646.
- ^ Martinez L, Andreani, R, Martinez, JM. (2007). „Konvergentní algoritmy pro strukturní vyrovnání proteinů“. BMC bioinformatika. 8: 306. doi:10.1186/1471-2105-8-306. PMC 1995224. PMID 17714583.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ A b Mount DM. (2004). Bioinformatika: sekvence a analýza genomu 2. vyd. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY ISBN 0879697121
- ^ Holm L, Sander C (1996). "Mapování proteinového vesmíru". Věda. 273 (5275): 595–603. doi:10.1126 / science.273.5275.595. PMID 8662544.
- ^ A b C Shindyalov, I.N .; Bourne P.E. (1998). „Zarovnání struktury proteinů inkrementálním kombinatorickým prodloužením (CE) optimální cesty“. Proteinové inženýrství. 11 (9): 739–747. doi:10.1093 / protein / 11.9.739. PMID 9796821.
- ^ Prlic A, Bliven S, Rose PW, Bluhm WF, Bizon C, Godzik A, Bourne PE (2010). „Pre-Calculate protein structure alignments at the RCSB PDB website“. Bioinformatika. 26 (23): 2983–2985. doi:10.1093 / bioinformatika / btq572. PMC 3003546. PMID 20937596.
- ^ Pin-Hao Chi, Bin Pang, Dmitrij Korkin, Chi-Ren Shyu (2009). „Efektivní SCOP-násobná klasifikace a získávání pomocí indexových proteinových uspořádání spodní struktury“. Bioinformatika. 25 (19): 2559–2565. doi:10.1093 / bioinformatika / btp474.CS1 maint: používá parametr autoři (odkaz)
- ^ Sara Cheek, Yuan Qi, Sri Krishna, Lisa N Kinch a Nick V Grishin (2004). "SCOPmap: Automatizované přiřazení proteinových struktur k evolučním superrodinám". BMC bioinformatika. 5 (197). doi:10.1186/1471-2105-5-197. PMID 15598351.CS1 maint: používá parametr autoři (odkaz)
- ^ Kai Wang, Ram Samudrala. „FSSA: nová metoda pro identifikaci funkčních podpisů ze strukturálních zarovnání“. Bioinformatika. 21 (13): 2969–2977. doi:10.1093 / bioinformatika / bti471.CS1 maint: používá parametr autoři (odkaz)
- ^ Taylor WR, Flores TP, Orengo CA (1994). „Více struktur proteinových struktur“. Protein Sci. 3 (10): 1858–70. doi:10.1002 / pro.5560031025. PMC 2142613. PMID 7849601.
- ^ Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH: Hierarchická klasifikace struktur proteinových domén". Struktura. 5 (8): 1093–1108. doi:10.1016 / S0969-2126 (97) 00260-8. PMID 9309224.
- ^ A b Zhang Y, Skolnick J (2005). „TM-align: Algoritmus zarovnání proteinové struktury založený na TM-skóre“. Výzkum nukleových kyselin. 33 (7): 2302–2309. doi:10.1093 / nar / gki524. PMC 1084323. PMID 15849316.
- ^ Stefano Angaran; Mary Ellen Bock; Claudio Garutti; Concettina Guerra1 (2009). „MolLoc: webový nástroj pro místní strukturální vyrovnání molekulárních povrchů“. Výzkum nukleových kyselin. 37 (Problém s webovým serverem): W565–70. doi:10.1093 / nar / gkp405. PMC 2703929. PMID 19465382.
- ^ Gaëlle Debret; Arnaud Martel; Philippe Cuniasse (2009). „RASMOT-3D PRO: webový server pro vyhledávání 3D motivů“. Výzkum nukleových kyselin. 37 (Problém s webovým serverem): W459–64. doi:10.1093 / nar / gkp304. PMC 2703991. PMID 19417073.
- ^ A b Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J. Wolfson (2008). „MultiBind a MAPPIS: webové servery pro vícenásobné zarovnání proteinových 3D vazebných míst a jejich interakce“. Výzkum nukleových kyselin. 36 (Problém s webovým serverem): W260–4. doi:10.1093 / nar / gkn185. PMC 2447750. PMID 18467424.
- ^ A b Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J. Wolfson (2007). „Prostorová chemická konzervace interakcí horkých míst v komplexech protein-protein“. Biologie BMC. 5 (43): 43. doi:10.1186/1741-7007-5-43. PMC 2231411. PMID 17925020.
- ^ Gabriele Ausiello; Pier Federico Gherardini; Paolo Marcatili; Anna Tramontano; Allegra Via; Manuela Helmer-Citterich (2008). „FunClust: webový server pro identifikaci strukturních motivů v souboru nehomologních proteinových struktur“. Biologie BMC. 9: S2. doi:10.1186 / 1471-2105-9-S2-S2. PMC 2323665. PMID 18387204.
- ^ Janez Konc; Dušanka Janežič (2010). „Algoritmus ProBiS pro detekci strukturně podobných vazebných míst pro proteiny lokálním strukturním srovnáním“. Bioinformatika. 26 (9): 1160–1168. doi:10.1093 / bioinformatika / btq100. PMC 2859123. PMID 20305268.
- ^ Hui Sun Lee; Wonpil Im (2012). „Identifikace šablon ligandu pomocí zarovnání lokální struktury pro návrh léku na základě struktury“. Journal of Chemical Information and Modeling. 52 (10): 2784–2795. doi:10.1021 / ci300178e. PMC 3478504. PMID 22978550.
- ^ Hui Sun Lee; Wonpil Im (2013). „Detekce vazebného místa ligandu podle zarovnání místní struktury a jeho komplementarity výkonu“. Journal of Chemical Information and Modeling. 53 (9): 2462–2470. doi:10.1021 / ci4003602. PMC 3821077. PMID 23957286.
- ^ A b Barthel D., Hirst J.D., Blazewicz J., Burke E.K. a Krasnogor N. (2007). „ProCKSI: systém podpory rozhodování pro srovnání proteinů (struktur), znalosti, podobnost a informace“. BMC bioinformatika. 8: 416. doi:10.1186/1471-2105-8-416. PMC 2222653. PMID 17963510.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Sippl, M .; Wiederstein, M. (2012). „Detekce prostorových korelací v proteinových strukturách a molekulárních komplexech“. Struktura. 20 (4): 718–728. doi:10.1016 / j.str.2012.01.024. PMC 3320710. PMID 22483118.
- ^ Torarinsson E, Sawera M, Havgaard JH, Fredholm M, Gorodkin J (2006). "Tisíce odpovídajících lidských a myších genomových oblastí nezměnitelných v primární sekvenci obsahují společnou strukturu RNA". Genome Res. 16 (7): 885–9. doi:10,1101 / gr.5226606. PMC 1484455. PMID 16751343.
- ^ Hoksza D, Svozil D (2012). "Efektivní srovnání párových struktur RNA metodou SETTER" (PDF). Bioinformatika. 28 (14): 1858–1864. doi:10.1093 / bioinformatika / bts301. PMID 22611129.
- ^ Cech P, Svozil D, Hoksza D (2012). "SETTER: webový server pro srovnání struktury RNA". Výzkum nukleových kyselin. 40 (W1): W42 – W48. doi:10.1093 / nar / gks560. PMC 3394248. PMID 22693209.
- ^ Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J (2005). „Párové lokální strukturní zarovnání sekvencí RNA se sekvenční podobností menší než 40%“. Bioinformatika. 21 (9): 1815–24. doi:10.1093 / bioinformatika / bti279. PMID 15657094.
- ^ Mathews DH, Turner DH (2006). "Predikce sekundární struktury RNA minimalizací volné energie". Curr Opin Struct Biol. 16 (3): 270–8. doi:10.1016 / j.sbi.2006.05.010. PMID 16713706.
Další čtení
- Bourne PE, Shindyalov IN. (2003): Srovnání struktury a zarovnání. In: Bourne, P.E., Weissig, H. (Eds): Strukturální bioinformatika. Hoboken NJ: Wiley-Liss. ISBN 0-471-20200-2
- Yuan X, Bystroff C. (2004) "Non-sequential Structure-based Alignments Reveal Topology-independent Core Packing Arrangements in Proteins", Bioinformatika. Nov 5, 2004
- Jung J, Lee B (2000). "Protein structure alignment using environmental profiles". Protein Eng. 13 (8): 535–543. doi:10.1093/protein/13.8.535.
- Ye Y, Godzik A (2005). "Multiple flexible structure alignment using partial order graphs". Bioinformatika. 21 (10): 2362–2369. doi:10.1093/bioinformatics/bti353. PMID 15746292.
- Sippl M, Wiederstein M (2008). "A note on difficult structure alignment problems". Bioinformatika. 24 (3): 426–427. doi:10.1093/bioinformatics/btm622. PMID 18174182.