Výpočetní genomika - Computational genomics
Výpočetní genomika (často označované jako Computational Genetics) odkazuje na použití výpočetní a statistické analýzy k dešifrování biologie z sekvence genomu a související údaje,[1] včetně obou DNA a RNA sekvence a další „postgenomická“ data (tj. experimentální data získaná pomocí technologií, které vyžadují sekvenci genomu, jako je genomová DNA mikročipy ). V kombinaci s výpočetními a statistickými přístupy k pochopení funkce genů a statistickou asociační analýzou se toto pole také často označuje jako Výpočetní a statistická genetika / genomika. Jako takovou lze výpočetní genomiku považovat za podmnožinu bioinformatika a výpočetní biologie, ale se zaměřením na používání celých genomů (spíše než jednotlivých genů) k pochopení principů toho, jak DNA druhu řídí svou biologii na molekulární úrovni i mimo ni. Se současným množstvím obrovských biologických datových souborů se výpočetní studie staly jedním z nejdůležitějších prostředků biologického objevu.[2]
Dějiny
Kořeny výpočetní genomiky jsou sdíleny s kořeny bioinformatika. V šedesátých letech Margaret Dayhoff a další v National Biomedical Research Foundation sestavili databáze homologních proteinových sekvencí pro evoluční studium.[3] Jejich výzkum vyvinul a fylogenetický strom který určoval evoluční změny, které byly nutné k tomu, aby se konkrétní protein změnil na jiný protein na základě podkladu aminokyselina sekvence. To je vedlo k vytvoření skórovací matice, která hodnotila pravděpodobnost příbuznosti jednoho proteinu s druhým.
Počínaje osmdesátými léty se začaly zaznamenávat databáze sekvencí genomu, ale to představovalo nové výzvy v podobě vyhledávání a porovnávání databází genových informací. Na rozdíl od algoritmů pro vyhledávání textu, které se používají na webových stránkách, jako je Google nebo Wikipedia, vyžaduje hledání sekcí genetické podobnosti jeden k nalezení řetězců, které nejsou jednoduše identické, ale podobné. To vedlo k rozvoji Needleman-Wunschův algoritmus, což je dynamické programování algoritmus pro vzájemné porovnání sad aminokyselinových sekvencí pomocí skórovacích matic odvozených z dřívějšího výzkumu Dayhoffa. Později VÝBUCH Byl vyvinut algoritmus pro rychlé, optimalizované prohledávání databází genových sekvencí. BLAST a jeho deriváty jsou pro tento účel pravděpodobně nejpoužívanějšími algoritmy.[4]
Vznik výrazu „výpočetní genomika“ se shoduje s dostupností úplných sekvenovaných genomů v polovině 90. let. První zasedání výroční konference o výpočetní genomice uspořádali vědci z Institut pro genomický výzkum (TIGR) v roce 1998, poskytující fórum pro tuto specializaci a účinně odlišující tuto oblast vědy od obecnějších oblastí Genomika nebo Výpočetní biologie.[Citace je zapotřebí ] První použití tohoto termínu ve vědecké literatuře, podle MEDLINE abstrakty, byl jen o rok dříve v Výzkum nukleových kyselin.[5] Závěrečná konference o výpočetní genomice se konala v roce 2006 a měla hlavní přednášku nositele Nobelovy ceny Barry Marshall, spoluobjevitel spojení mezi Helicobacter pylori a žaludeční vředy. Od roku 2014 patří mezi přední konference v této oblasti Inteligentní systémy pro molekulární biologii (ISMB) a Výzkum v oblasti výpočetní molekulární biologie (RECOMB).
Rozvoj počítačové matematiky (s využitím produktů, jako je Mathematica nebo Matlab ) pomohl inženýrům, matematikům a počítačovým vědcům zahájit činnost v této oblasti a roste veřejná sbírka případových studií a demonstrací od srovnání celého genomu po genová exprese analýza.[6] To zvýšilo zavádění různých myšlenek, včetně konceptů ze systémů a řízení, teorie informací, analýzy řetězců a dolování dat. Předpokládá se, že výpočetní přístupy se stanou a zůstanou standardním tématem výzkumu a výuky, zatímco studenti, kteří ovládají obě témata, se začnou formovat v několika kurzech vytvořených v posledních několika letech.
Příspěvky počítačového genomického výzkumu k biologii
Příspěvky počítačového genomického výzkumu k biologii zahrnují:[2]
- navrhující buněčná signalizace sítí
- navrhování mechanismů evoluce genomu
- předpovídat přesné polohy všech lidí geny použitím komparativní genomika techniky s několika savci a obratlovci druh
- předpovědět konzervovaný genomové oblasti, které souvisí s časnými embryonální vývoj
- objevit potenciální vazby mezi motivy opakovaných sekvencí a tkáňově specifickými genová exprese
- změřte oblasti genomů, které prošly neobvykle rychlým vývojem
Viz také
Reference
- ^ Koonin EV (březen 2001). "Výpočetní genomika". Aktuální biologie. 11 (5): R155–8. doi:10.1016 / S0960-9822 (01) 00081-1. PMID 11267880. S2CID 17202180.
- ^ A b Výpočetní genomika a proteomika na MIT
- ^ Mount D (2000). Bioinformatika, sekvence a analýza genomu. Cold Spring Harbor Laboratory Press. s. 2–3. ISBN 978-0-87969-597-2.
- ^ Brown TA (1999). Genomy. Wiley. ISBN 978-0-471-31618-3.
- ^ Wagner A (září 1997). „Výpočetní genomický přístup k identifikaci genových sítí“. Výzkum nukleových kyselin. 25 (18): 3594–604. doi:10.1093 / nar / 25.18.3594. PMC 146952. PMID 9278479.
- ^ Cristianini N, Hahn M (2006). Úvod do výpočetní genomiky. Cambridge University Press. ISBN 978-0-521-67191-0.
externí odkazy
- Harvard Extension School Biofyzika 101, Genomika a výpočetní biologie, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
- Kurz výpočetní genomiky na University of Bristol, http://www.computational-genomics.net/