AlphaFold - AlphaFold

AlphaFold je umělá inteligence program vyvinutý společností Google DeepMind který provádí předpovědi struktury proteinů.[1] Program je koncipován jako hluboké učení systém, který je postaven na předvídání složený proteinové struktury na šířku atomu.[2]

V listopadu 2020 se verze programu s názvem AlphaFold 2 zúčastnila 14. ročníku bienále Kritické hodnocení technik pro predikci struktury proteinů (CASP ) soutěž,[3] ve kterém dosáhl úrovně přesnosti mnohem vyšší než kterákoli jiná výpočetní metoda.[2] Program zaznamenal skóre nad 90 u přibližně dvou třetin proteinů v CASP globální test vzdálenosti (GDT), test, který měří míru, do jaké je výpočetní program predikovaná struktura podobná struktuře určené laboratorním experimentem, přičemž 100 je přesná shoda, v mezní vzdálenosti použité pro výpočet GDT.[2][4]

Problém skládání bílkovin

tři jednotlivé polypeptidové řetězce na různých úrovních skládání a shluk řetězců
Aminokyselinové řetězce, známé jako polypeptidy, složte a vytvořte protein.

Proteiny se skládají z řetězců aminokyseliny které se spontánně skládají, v procesu zvaném skládání bílkovin, tvořit biologicky důležité rodný stát trojrozměrné struktury. DNA sekvence obsahují základní informace o sekvencích těchto aminokyselin, ale informace o skládání proteinů a strukturách jsou určovány fyzikálními procesy, které nelze přímo předpovědět ze sekvencí DNA.[5] Vědci hledají experimentální techniky, jako je Rentgenová krystalografie, kryo-elektronová mikroskopie a nukleární magnetická rezonance, které jsou nákladné i časově náročné pro určení cílových struktur, do kterých se proteiny skládají.[5] Současné snahy identifikovaly pouze struktury ~ 170 000 proteinů, zatímco v životních formách je známo více než 200 milionů proteinů.[4] Existuje mnoho výpočetních metod predikce proteinové struktury, ale jejich přesnost nebyla blízká experimentálním technikám, což omezovalo jejich hodnotu.

Algoritmus

Ačkoli podrobnosti algoritmů AlphaFold 2020 nebyly veřejně zveřejněny, očekává se, že některé budou oznámeny počátkem prosince 2020, v CASP konference. Je známo, že DeepMind vyškolil program na více než 170 000 proteinů z veřejného úložiště proteinových sekvencí a struktur. Program používá formu síť pozornosti, a hluboké učení technika, která se zaměřuje na AI algoritmus řeší části většího problému a spojuje jej dohromady, aby získal celkové řešení.[2] Celkové školení probíhalo na výpočetní síle mezi 100 a 200 GPU.[2] Školení systému na tomto hardwaru trvalo „několik týdnů“, poté konverzi programu pro každou strukturu trvalo „otázkou dní“.[6]

AlphaFold 1 (2018) postavený na práci vyvinuté různými týmy v 2010s, která zkoumala velké banky, které jsou nyní k dispozici související sekvence DNA z mnoha různých organismů (většinou bez známých 3D struktur), aby se pokusily najít změny na různých zbytcích, které se objevily korelovat, i když zbytky nebyly v hlavním řetězci za sebou. Takové korelace naznačují, že zbytky mohou být fyzicky blízko u sebe, i když nejsou blízké v pořadí, což umožňuje a mapa kontaktů bude odhadnut. V návaznosti na velmi nedávnou práci to AlphaFold 1 rozšířil, aby odhadl rozdělení pravděpodobnosti pouze jak uzavřít zbytky, které by mohly být - přeměna kontaktní mapy na pravděpodobnou vzdálenost; také k vývoji závěru používá pokročilejší metody učení než dříve. Kombinace potenciálu na základě tohoto rozdělení pravděpodobnosti s vypočítanou lokální hodnotou energie zdarma konfigurace, tým byl poté schopen použít klesání k řešení, které nejlépe vyhovuje oběma.[7][8]

Techničtěji, Torrisi et al. shrnul přístup AlphaFold verze 1 takto:[9]

Středem AlphaFold je prediktor mapy vzdálenosti implementovaný jako velmi hluboký zbytkové neuronové sítě s 220 reziduálními bloky zpracovávajícími reprezentaci rozměrů 64 × 64 × 128 - což odpovídá vstupním vlastnostem vypočítaným ze dvou 64 aminokyselinových fragmentů. Každý zbytkový blok má tři vrstvy včetně 3 × 3 rozšířené konvoluční vrstvy - bloky procházejí dilatací hodnot 1, 2, 4 a 8. Celkově má ​​model 21 milionů parametrů. Síť používá kombinaci 1D a 2D vstupů, včetně evoluční profily z různých zdrojů a funkcí společné evoluce. Vedle mapy vzdáleností ve formě velmi jemného histogramu vzdáleností předpovídá AlphaFold Úhly Φ a. pro každý zbytek, který se použije k vytvoření počáteční předpokládané 3D struktury. Autoři AlphaFold dospěli k závěru, že hloubka modelu, jeho velká velikost plodiny, velká tréninková sada zhruba 29 000 proteinů, moderní techniky hlubokého učení a bohatství informací z předpovězeného histogramu vzdáleností pomohly AlphaFold dosáhnout vysoké přesnosti předpovědi kontaktní mapy .

AlphaFold 2 blok design. Uprostřed designu lze vidět dva transformační moduly založené na pozornosti. (Zdroj:[6])

Podle týmu DeepMind se aktuální verze programu (AlphaFold 2) výrazně liší od původní verze, která v roce 2018 vyhrála CASP 13.[10][11]

Tým zjistil, že jeho předchozí přístup, kombinující místní fyziku s vodicím potenciálem odvozeným z rozpoznávání vzorů, měl tendenci přeceňovat interakce mezi zbytky, které byly v sekvenci poblíž, ve srovnání s interakcemi mezi zbytky dále od sebe v řetězci. Výsledkem bylo, že AlphaFold 1 měl tendenci upřednostňovat modely s o něco více sekundární struktura (alfa helixy a beta listy ) tak tomu bylo ve skutečnosti (forma nadměrné vybavení ).[12]

AlphaFold 1 obsahoval řadu modulů, z nichž každý byl vyškolen samostatně, které byly použity k vytvoření vodicího potenciálu, který byl poté kombinován s energetickým potenciálem založeným na fyzice. AlphaFold 2 to vše nahradil systémem podsítí propojených do jediného diferencovatelného end-to-end modelu založeného výhradně na rozpoznávání vzorů, který byl vycvičen integrovaným způsobem jako jednotná integrovaná struktura.[11][13] Místní fyzika se použije pouze jako závěrečný krok zdokonalení, který jen mírně upraví předpokládanou strukturu.[12] Klíčovou součástí návrhu jsou dva moduly, o nichž se předpokládá, že jsou založeny na a transformátor design, který má vliv na matematickou transformaci relační matice mezi pozicemi reziduí a jinými pozicemi reziduí a mezi pozicemi reziduí a různými sekvencemi v zarovnání sekvence identifikovaných podobných sekvencí DNA.[13] Výsledkem těchto transformací je spojování relevantních dat a odfiltrování irelevantních dat pro tyto dva vztahy, a to způsobem závislým na kontextu (dále jen „mechanismus pozornosti“), který lze sám naučit z tréninkových dat. Jejich výstup pak informuje konečný predikční modul.[13] Jak je trénovaný systém iterován, mají tyto tendenci nejprve vytvářet malé shluky aminokyselin, pak způsoby, jak tyto shluky orientovat do celkové struktury.[14]

Tým AlphaFold věří, že nejnovější verzi lze dále rozvíjet, s prostorem pro další zlepšení přesnosti.[10]

Soutěže

Výsledky dosažené pro predikci bílkovin nejlepší rekonstrukcí v soutěži CASP 2018 (malé kruhy) a CASP 2020 (velké kruhy) ve srovnání s výsledky dosaženými v předchozích letech. (Zdroj:[15])
Karmínová trendová linie ukazuje, jak hrstka modelů, včetně AlphaFold 1, dosáhla v roce 2018 významné skokové změny oproti míře pokroku, kterého bylo dříve dosaženo, zejména s ohledem na proteinové sekvence považované za nejobtížněji předvídatelné.
(Kvalitativní zlepšení bylo provedeno v dřívějších letech, ale je to jen proto, že změny přinesou struktury do 8 A experimentálních pozic, které začínají ovlivňovat opatření CASP GDS-TS).
Oranžová trendová čára ukazuje, že do roku 2020 se servery pro online predikci dokázaly tento výkon poučit a porovnat jej, zatímco nejlepší ostatní skupiny (zelená křivka) dokázaly v průměru provést některá vylepšení. Černá trendová křivka však ukazuje, do jaké míry to AlphaFold 2 v roce 2020 plošně překonal.
Podrobné rozložení datových bodů označuje stupeň konzistence nebo variace dosažené AlphaFold. Odlehlé hodnoty představují hrst sekvencí, pro které neprovedla tak úspěšnou předpověď.

CASP13

V prosinci 2018 se AlphaFold společnosti DeepMind umístila na prvním místě v celkovém hodnocení 13. místa Kritické hodnocení technik pro predikci struktury proteinů (CASP).

Program obzvláště úspěšně předpovídal nejpřesnější strukturu cílů, které organizátoři soutěže vyhodnotili jako nejtěžší, pokud neexistují struktury šablon byly dostupné z proteinů s částečně podobnou sekvencí. AlphaFold dal nejlepší předpověď pro 25 ze 43 proteinových cílů v této třídě,[16][17][18] dosažení mediánu skóre 58,9 na CASP globální test vzdálenosti (GDT) skórovat před 52,5 a 52,4 dvěma dalšími nejlépe umístěnými týmy,[19] kteří také pomocí hlubokého učení odhadovali kontaktní vzdálenosti.[20][21] Celkově program ve všech cílech dosáhl skóre GDT 68,5.[22]

V lednu 2020 byl vydán programový kód AlphaFold 1 open-source na zdrojové platformě, GitHub.[23][5]

CASP14

V listopadu 2020 vyhrála CASP14 vylepšená verze AlphaFold 2.[6][24] Celkově AlphaFold 2 udělal nejlepší předpověď pro 88 z 97 cílů.[25]

Na preferenci konkurence globální test vzdálenosti (GDT) míra přesnosti, program dosáhl mediánu skóre 92,4 (ze 100), což znamená, že více než polovina jeho předpovědí byla hodnocena lépe než 92,4% za to, že jejich atomy byly na více či méně správném místě,[26][27] úroveň přesnosti uváděná jako srovnatelná s experimentálními technikami Rentgenová krystalografie.[10][28][22] V roce 2018 AlphaFold 1 dosáhl této úrovně přesnosti pouze ve dvou ze všech svých předpovědí.[25] 88% předpovědí mělo skóre GDT-TS více než 80.[29]:snímek 3 Ve skupině cílů klasifikovaných jako nejtěžší dosáhl AlphaFold 2 průměrného skóre 87.

Měřeno odchylka od odmocniny (RMS-D) umístění atomů uhlíku řetězce páteře proteinu, který má tendenci dominovat výkonem nejhůře odlehlých odlehlých hodnot, 88% předpovědí AlphaFold 2 mělo odchylku RMS menší než 4 A.[25] 76% předpovědí bylo dosaženo lépe než 3 Å a 46% mělo přesnost RMS lepší než 2 Å.[25] Program celkově dosáhl střední odchylky RMS ve svých předpovědích 2,1 Å.[25] Pro srovnání délka vazby typické vazby uhlík-uhlík je 1,5 A.

Výsledky AlphaFold 2 byly tak dobré, že organizátoři konference oslovili čtyři přední experimentální skupiny pro struktury, které považovali za obzvláště náročné, a nebyli schopni najít řešení, která by odpovídala jejich údajům.[29] Ve všech čtyřech případech byly předpovědi z AlphaFold 2 tak přesné, že skupiny dokázaly aplikovat standardní metody a přímo získat úplná krystalografická řešení.[29] Mezi ně patřilo a zaklíněný protein buněčné membrány, konkrétně membránový protein z druhu Archaea mikroorganismus, na kterém experimentální tým pracoval deset let. Takové proteiny jsou ústředním bodem mnoha lidských onemocnění a proteinových struktur, které je obtížné předvídat, dokonce i při použití experimentálních technik Rentgenová krystalografie.[4]

Odpovědi

AlphaFold 2 boduje více než 90 palců CASP je globální test vzdálenosti (GDT) je považován za významný úspěch v výpočetní biologie a řešení „50 let starého problému“.[4] Nobelova cena vítěz a strukturní biolog Venki Ramakrishnan nazval výsledek „ohromujícím pokrokem v problému skládání bílkovin“.[4] John Moult, výpočetní biolog, který zahájil soutěž v roce 1994 s cílem zlepšit výpočetní úsilí při předpovídání proteinových struktur, řekl: „To je velký problém. V jistém smyslu je problém vyřešen.“[28]

Předpokládá se, že schopnost přesně předpovědět proteinové struktury na základě aminokyselinové sekvence, která je součástí, bude mít v prostoru věd o živé přírodě širokou škálu výhod, včetně zrychlení pokročilého objevování léků a umožnění lepšího porozumění chorobám.[28]

Aplikace

SARS-CoV-2

AlphaFold byl použit k předpovědi struktury proteinů z SARS-CoV-2, původce COVID-19. Struktura těchto proteinů čekala na experimentální detekci počátkem roku 2020.[30][28] Výsledky byly zkoumány vědci z Francis Crick Institute ve Velké Británii před propuštěním do větší výzkumné komunity. Tým také potvrdil přesnou předpověď proti experimentálně určenému SARS-CoV-2 spike protein který byl sdílen v Proteinová datová banka, mezinárodní databáze s otevřeným přístupem, před uvolněním výpočetně určených struktur nedostatečně studovaných proteinových molekul.[31] Tým uznal, že i když tyto proteinové struktury nemusí být předmětem probíhajícího terapeutického výzkumu, přispějí k pochopení viru SARS-CoV-2 komunitou.[31] Konkrétně předpověď AlphaFold 2 na strukturu Orf3a protein byl velmi podobný struktuře určené výzkumníky v University of California, Berkeley použitím kryo-elektronová mikroskopie. Předpokládá se, že tento specifický protein pomáhá viru vymanit se z hostitelské buňky, jakmile se replikuje. Předpokládá se také, že tento protein hraje roli při vyvolání zánětlivé reakce na infekci.[32]

Publikovaná díla

Výzkum AlphaFold

Derivátový výzkum

  • Yang, Jianyi; Anishchenko, Ivan; Park, Hahnbeom; Peng, Zhenling; Ovchinnikov, Sergey; Baker, David (2019-11-18). „Vylepšená predikce struktury proteinu pomocí predikovaných orientací mezi zbytky“. bioRxiv: 846279. doi:10.1101/846279. S2CID  209563981.
  • Billings, Wendy M .; Hedelius, Bryce; Millecam, Todd; Wingate, David; Corte, Dennis Della (04.11.2019). „ProSPr: Demokratizovaná implementace sítě pro predikci vzdálenosti proteinů Alphafold“. bioRxiv: 830273. doi:10.1101/830273. S2CID  209578310.

Reference

  1. ^ „AlphaFold“. Deepmind. Citováno 30. listopadu 2020.
  2. ^ A b C d E „AI skládající proteiny DeepMind vyřešila 50 let starou velkou výzvu biologie“. Recenze technologie MIT. Citováno 2020-11-30.
  3. ^ Shead, Sam (2020-11-30). „DeepMind řeší 50 let starou„ velkou výzvu “složením proteinu A.I.“ CNBC. Citováno 2020-11-30.
  4. ^ A b C d E ServiceNov. 30, Robert F .; 2020; Je 10:30 (2020-11-30). "'Hra se změnila. “ AI triumfuje při řešení proteinových struktur “. Věda | AAAS. Citováno 2020-12-01.CS1 maint: číselné názvy: seznam autorů (odkaz)
  5. ^ A b C „AlphaFold: Využití umělé inteligence pro vědecký objev“. Deepmind. Citováno 2020-11-30.
  6. ^ A b C „AlphaFold: řešení 50 let staré velké výzvy v biologii“. Deepmind. Citováno 30. listopadu 2020.
  7. ^ Mohammed AlQuraishi (Květen 2019), AlphaFold na CASP13, Bioinformatika, 35(22), 4862–4865 doi:10.1093 / bioinformatika / btz422. Viz také Mohammed AlQuraishi (9. prosince 2018), AlphaFold @ CASP13: „Co se právě stalo?“ (příspěvek na blogu).
    Mohammed AlQuraishi (15. ledna 2020), Mezník pro predikci struktury proteinů, Příroda 577, 627-628 doi:10.1038 / d41586-019-03951-0
  8. ^ AlphaFold: Strojové učení pro predikci struktury proteinů, Foldit, 31. ledna 2020
  9. ^ Torrisi, Mirko a kol. (22. ledna 2020), Metody hlubokého učení v predikci struktury proteinů. Výpočetní a strukturální biotechnologický časopis sv. 18 1301-1310. doi:10.1016 / j.csbj.2019.12.011 (CC-BY-4.0)
  10. ^ A b C „DeepMind odpovídá na jednu z největších výzev biologie“. Ekonom. 2020-11-30. ISSN  0013-0613. Citováno 2020-11-30.
  11. ^ A b Jeremy Kahn, Poučení z průlomu DeepMind v A.I., Štěstí, 1. prosince 2020
  12. ^ A b John Jumper a kol. (Prosinec 2020)
  13. ^ A b C Viz blokové schéma
  14. ^ Robert F. Service, „Hra se změnila.“ AI triumfuje v řešení proteinových struktur, Věda, 30. listopadu 2020
  15. ^ John Moult (30. listopadu 2020), Úvodní prezentace CASP 14, snímek 19. Viz také video stream CASP 14 den 1 část 1, od 00:22:46 hodin
  16. ^ Ukázka, Ian (2. prosince 2018). „Google DeepMind předpovídá 3D tvary proteinů“. Opatrovník. Citováno 30. listopadu 2020.
  17. ^ „AlphaFold: Využití umělé inteligence pro vědecký objev“. Deepmind. Citováno 30. listopadu 2020.
  18. ^ Singh, Arunima (2020). „Hluboké učení 3D struktur“. Přírodní metody. 17 (3): 249. doi:10.1038 / s41592-020-0779-r. ISSN  1548-7105. PMID  32132733. S2CID  212403708.
  19. ^ Vidět Datové tabulky CASP 13 pro 043 A7D, 322 Zhang a 089 MULTICOM
  20. ^ Wei Zheng et al,Predikce struktury proteinů s hlubokým učením kontaktních map v CASP13, Proteiny: struktura, funkce a bioinformatika, 87(12) 1149-1164 doi:10,1002 / prot. 25792; a diapozitivy
  21. ^ Jie Hou et al (2019), Modelování proteinové terciární struktury založené na hlubokém učení a predikci kontaktní vzdálenosti v CASP13, Proteiny: struktura, funkce a bioinformatika, 87(12) 1165-1178 doi:10,1002 / prot.25697
  22. ^ A b „Průlom DeepMind pomáhá řešit, jak nemoci napadají buňky“. Bloomberg.com. 2020-11-30. Citováno 2020-11-30.
  23. ^ „deepmind / deepmind-research“. GitHub. Citováno 2020-11-30.
  24. ^ „Technologie skládání proteinů DeepMind vyřešila 50 let starou velkou výzvu biologie“. Recenze technologie MIT. Citováno 30. listopadu 2020.
  25. ^ A b C d E Mohammed AlQuraishi, twitter vlákno, 30. listopadu 2020.
  26. ^ U použitého opatření GDT-TS každý atom v predikci získá čtvrtinu bodu, pokud je do 8 A experimentální polohy; půl bodu, pokud je do 4 Å, tři čtvrtiny bodu, pokud je do 2 Å, a celý bod, pokud je do 1 Å.
  27. ^ K dosažení skóre GDT-TS 92,5 musí být matematicky alespoň 70% struktury s přesností na 1 Å a alespoň 85% s přesností na 2 Å.
  28. ^ A b C d Callaway, Ewen (2020-11-30). "'Změní to všechno ': AI DeepMind dělá obrovský skok v řešení proteinových struktur “. Příroda. doi:10.1038 / d41586-020-03348-4.
  29. ^ A b C Andriy Kryshtafovych (30. listopadu 2020), Experimentanti: Jsou modely užitečné? Prezentace CASP 14. Viz také video stream CASP 14 den 1 část 1 od 0:34:30
  30. ^ „AI může pomoci vědcům najít vakcínu Covid-19“. Kabelové. ISSN  1059-1028. Citováno 2020-12-01.
  31. ^ A b "Výpočtové předpovědi proteinových struktur spojených s COVID-19". Deepmind. Citováno 2020-12-01.
  32. ^ „Jak nová technologie skládání proteinů DeepMind již pomáhá v boji proti pandemii koronavirů“. Štěstí. Citováno 2020-12-01.

externí odkazy