Strukturální genomika - Structural genomics

Strukturální genomika se snaží popsat 3-rozměrná struktura každého proteinu kódovaného daným genom. Tento přístup založený na genomu umožňuje vysoce výkonnou metodu stanovení struktury kombinací experimentální a modelovací přístupy. Hlavní rozdíl mezi strukturální genomikou a tradiční strukturální predikce je to, že strukturální genomika se pokouší určit strukturu každého proteinu kódovaného genomem, spíše než se soustředit na jeden konkrétní protein. Díky dostupným sekvencím úplného genomu lze predikci struktury provádět rychleji kombinací experimentálních a modelových přístupů, zejména proto, že dostupnost velkého počtu sekvenovaných genomů a dříve vyřešených proteinových struktur umožňuje vědcům modelovat proteinovou strukturu na strukturách dříve vyřešených homology.
Protože struktura bílkovin je úzce spjata s funkcí bílkovin, má strukturální genomika potenciál informovat o znalostech funkce bílkovin. Kromě objasnění proteinových funkcí lze strukturální genomiku použít k identifikaci nových záhybů proteinů a potenciálních cílů pro objevování léků. Strukturální genomika zahrnuje přijetí velkého množství přístupů k určení struktury, včetně experimentálních metod využívajících genomové sekvence nebo přístupů založených na modelování založených na sekvenci nebo strukturní homologie na protein známé struktury nebo založený na chemických a fyzikálních principech pro protein bez homologie s jakoukoli známou strukturou.
Na rozdíl od tradičních strukturní biologie, stanovení a proteinová struktura prostřednictvím úsilí strukturální genomiky často (ale ne vždy) přichází dříve, než je známo cokoli o funkci proteinu. To s sebou přináší nové výzvy strukturální bioinformatika, tj. stanovení funkce proteinu z jeho 3D struktura.
Strukturální genomika klade důraz na stanovení vysoké propustnosti proteinových struktur. To se provádí ve vyhrazených centra strukturní genomiky.
Zatímco většina strukturních biologů sleduje struktury jednotlivých proteinů nebo skupin proteinů, odborníci na strukturní genomiku sledují struktury proteinů v širokém měřítku genomu. To znamená klonování, expresi a čištění ve velkém měřítku. Jednou z hlavních výhod tohoto přístupu je úspora z rozsahu. Na druhou stranu je někdy zpochybňována vědecká hodnota některých výsledných struktur. A Věda článek z ledna 2006 analyzuje pole strukturní genomiky.[1]
Jednou z výhod strukturální genomiky, jako je Iniciativa pro strukturu bílkovin, je, že vědecká komunita získá okamžitý přístup k novým strukturám, stejně jako k činidlům, jako jsou klony a bílkoviny. Nevýhodou je, že mnoho z těchto struktur je proteinů neznámé funkce a nemají odpovídající publikace. To vyžaduje nové způsoby sdělování těchto strukturálních informací širší výzkumné komunitě. Bioinformatické jádro Společného centra pro strukturální genomiku (JCSG) nedávno vyvinulo přístup založený na wiki, konkrétně Otevřená síť anotací struktury proteinů (TOPSAN) pro anotaci proteinových struktur vznikajících z vysoce výkonných strukturních center genomiky.
Cíle
Jedním z cílů strukturní genomiky je identifikovat nové proteinové záhyby. Experimentální metody stanovení proteinové struktury vyžadují proteiny, které dobře exprimují a / nebo krystalizují, což může přirozeně ovlivňovat druhy záhybů proteinů, které tato experimentální data objasňují. Genomický přístup založený na modelování, jako je ab initio modelování mohou být lépe schopni identifikovat nové proteinové záhyby než experimentální přístupy, protože nejsou omezeny experimentálními omezeními.
Funkce bílkovin závisí na 3-D struktuře a tyto 3-D struktury jsou konzervovanější než sekvence. Metody stanovení struktury strukturní genomiky s vysokou propustností mají tedy potenciál informovat o našem chápání proteinových funkcí. To má také potenciální důsledky pro objevování léků a proteinové inženýrství.[2] Kromě toho každý protein, který je přidán do strukturní databáze, zvyšuje pravděpodobnost, že databáze bude obsahovat homologní sekvence jiných neznámých proteinů. The Iniciativa pro strukturu bílkovin (PSI) je mnohostranné úsilí financované Národní institut zdraví s různými akademickými a průmyslovými partnery, jejichž cílem je zvýšit znalosti o struktuře proteinů pomocí přístupu strukturální genomiky a zlepšit metodiku určování struktury.
Metody
Strukturní genomika využívá výhod dokončených sekvencí genomu několika způsoby k určení proteinových struktur. Genovou sekvenci cílového proteinu lze také porovnat se známou sekvencí a strukturní informace lze poté odvodit ze struktury známého proteinu. Strukturální genomika může být použita k předpovědi nových záhybů proteinů na základě jiných strukturálních údajů. Strukturální genomika může také využívat přístup založený na modelování, který se opírá o homologii mezi neznámým proteinem a vyřešenou proteinovou strukturou.
de novo metody
Dokončené sekvence genomu umožňují každému otevřený čtecí rámec (ORF), část genu, která pravděpodobně obsahuje sekvenci pro messenger RNA a protein, který má být klonován a exprimován jako protein. Tyto proteiny jsou poté čištěny a krystalizovány a poté podrobeny jednomu ze dvou typů stanovení struktury: Rentgenová krystalografie a nukleární magnetická rezonance (NMR). Celá sekvence genomu umožňuje návrh každého primeru požadovaného k amplifikaci všech ORF, jejich klonování do bakterií a jejich následné expresi. Použitím přístupu celého genomu k této tradiční metodě stanovení proteinové struktury lze všechny proteiny kódované genomem exprimovat najednou. Tento přístup umožňuje strukturní stanovení každého proteinu, který je kódován genomem.
Metody založené na modelování
ab initio modelování
Tento přístup využívá data sekvencí proteinů a chemické a fyzikální interakce kódovaných aminokyselin k předpovědi 3-D struktur proteinů bez homologie s řešenými proteinovými strukturami. Jedna velmi úspěšná metoda pro ab initio modelování je Rosetta program, který rozděluje protein na krátké segmenty a uspořádává krátký polypeptidový řetězec do nízkoenergetické místní konformace. Rosetta je k dispozici pro komerční použití a pro nekomerční použití prostřednictvím jejího veřejného programu Robetta.
Sekvenční modelování
Tato technika modelování srovnává genovou sekvenci neznámého proteinu se sekvencemi proteinů se známými strukturami. V závislosti na míře podobnosti mezi sekvencemi lze strukturu známého proteinu použít jako model pro řešení struktury neznámého proteinu. Vysoce přesné modelování se považuje za vyžadující alespoň 50% identitu aminokyselinové sekvence mezi neznámým proteinem a řešenou strukturou. 30-50% sekvenční identita dává model střední přesnosti a sekvenční identita pod 30% dává modely s nízkou přesností. Předpovídalo se, že bude nutné určit alespoň 16 000 proteinových struktur, aby byly alespoň jednou zastoupeny všechny strukturní motivy, což umožní přesné řešení struktury jakéhokoli neznámého proteinu pomocí modelování.[3] Jednou z nevýhod této metody však je, že struktura je konzervativnější než sekvence, a proto modelování založené na sekvenci nemusí být nejpřesnějším způsobem předpovědi proteinových struktur.
Závitování
Závitování zakládá strukturální modelování spíše na podobnosti skladů než na identitě sekvence. Tato metoda může pomoci identifikovat vzdáleně příbuzné proteiny a lze ji použít k odvození molekulárních funkcí.
Příklady strukturní genomiky
V současné době existuje řada probíhajících snah o vyřešení struktur pro každý protein v daném proteomu.
Thermotogo maritima proteom
Jeden současný cíl Společné centrum pro strukturní genomiku (JCSG), součást Iniciativa pro strukturu bílkovin (PSI) je řešit struktury všech proteinů v Thermotogo maritima, termofilní bakterie. T. maritima byl vybrán jako cíl strukturální genomiky na základě jeho relativně malého genomu sestávajícího z 1 877 genů a hypotézy, že proteiny exprimované termofilní bakterií by mohly snadněji krystalizovat.
Lesley et al použitý Escherichia coli vyjádřit všechny otevřené čtecí rámce (ORF) T. martima. Tyto proteiny byly poté krystalizovány a byly stanoveny struktury pro úspěšně krystalizované proteiny pomocí rentgenové krystalografie. Mezi jinými strukturami tento přístup strukturální genomiky umožňoval stanovení struktury proteinu TM0449, u kterého bylo zjištěno, že vykazuje nový záhyb, protože nesdílel strukturní homologii se žádným známým proteinem.[4]
Mycobacterium tuberculosis proteom
Cílem Konsorcium TB Structural Genomics Consortium je určit struktury potenciálních drogových cílů v Mycobacterium tuberculosis bakterie, která způsobuje tuberkulózu. Vývoj nových lékových terapií proti tuberkulóze je zvláště důležitý vzhledem k rostoucímu problému tuberkulóza rezistentní na více léčiv.
Plně sekvenovaný genom M. tuberculosis umožnil vědcům klonovat mnoho z těchto proteinových cílů do expresních vektorů pro čištění a stanovení struktury rentgenovou krystalografií. Studie identifikovaly řadu cílových proteinů pro stanovení struktury, včetně extracelulárních proteinů, které se mohou podílet na patogenezi, proteinů regulujících železo, současných lékových cílů a proteinů, u nichž se předpokládá nové složení. Dosud byly stanoveny struktury pro 708 proteinů kódovaných M. tuberculosis.
Databáze a klasifikace proteinových struktur
- Proteinová datová banka (PDB): repozitář pro proteinovou sekvenci a strukturní informace
- UniProt: poskytuje informace o posloupnosti a funkcích
- Strukturální klasifikace proteinů (SCOP Classifications): hierarchical-based approach
- Třída, architektura, topologie a homologní nadrodina (CATH): hierarchický přístup
Viz také
Reference
- ^ Chandonia JM, Brenner SE (leden 2006). „Dopad strukturální genomiky: očekávání a výsledky“. Věda. 311 (5759): 347–51. Bibcode:2006Sci ... 311..347C. doi:10.1126 / science.1121018. PMID 16424331. S2CID 800902.
- ^ Kuhn P, Wilson K, Patch MG, Stevens RC (říjen 2002). „Geneze vysoce výkonného objevování léků na základě struktury pomocí proteinové krystalografie“. Curr Opin Chem Biol. 6 (5): 704–10. doi:10.1016 / S1367-5931 (02) 00361-7. PMID 12413557.
- ^ Baker D, Sali A (říjen 2001). "Predikce struktury proteinů a strukturní genomika". Věda. 294 (5540): 93–6. Bibcode:2001Sci ... 294 ... 93B. doi:10.1126 / science.1065659. PMID 11588250. S2CID 7193705.
- ^ Lesley SA, Kuhn P, Godzik A a kol. (Září 2002). „Strukturní genomika proteomu Thermotoga maritima implementovaná v potrubí pro stanovení struktury s vysokou propustností“. Proc. Natl. Acad. Sci. USA. 99 (18): 11664–9. Bibcode:2002PNAS ... 9911664L. doi:10.1073 / pnas.142413399. PMC 129326. PMID 12193646.
Další čtení
- Hooft RW, Vriend G, Sander C, Abola EE (květen 1996). "Chyby v proteinových strukturách". Příroda. 381 (6580): 272. Bibcode:1996 Natur.381..272H. doi:10.1038 / 381272a0. PMID 8692262. S2CID 4368507.
- Marsden RL, Lewis TA, Orengo CA (2007). „Směrem ke komplexnímu strukturálnímu pokrytí dokončených genomů: strukturální hledisko genomiky“. BMC bioinformatika. 8: 86. doi:10.1186/1471-2105-8-86. PMC 1829165. PMID 17349043.
- Baker EN, Arcus VL, Lott JS (2003). „Predikce a analýza proteinové struktury jako nástroj funkční genomiky“. Appl. Bioinformace. 2 (3 doplňky): S3–10. PMID 15130810.
- Goulding CW, Perry LJ, Anderson D a kol. (Září 2003). „Strukturální genomika Mycobacterium tuberculosis: předběžná zpráva o pokroku na UCLA“. Biophys. Chem. 105 (2–3): 361–70. CiteSeerX 10.1.1.318.7988. doi:10.1016 / S0301-4622 (03) 00101-7. PMID 14499904.
- Skolnick J, Fetrow JS, Kolinski A (březen 2000). "Strukturní genomika a její význam pro analýzu genových funkcí". Nat. Biotechnol. 18 (3): 283–7. doi:10.1038/73723. PMID 10700142. S2CID 2723601.