GeneMark - GeneMark
Původní autoři | Skupina bioinformatiky Marka Borodovského |
---|---|
Vývojáři | Gruzínský technologický institut |
První vydání | 1993 |
Operační systém | Linux, Okna, a Operační Systém Mac |
Licence | Zdarma pro akademické, neziskové nebo vládní účely USA |
webová stránka | opal.biology.gatech.edu/GeneMark |
GeneMark je obecný název pro rodinu ab initio programy genové predikce vyvinuté na Gruzínský technologický institut v Atlanta. Původní GeneMark, který byl vyvinut v roce 1993, byl použit v roce 1995 jako primární nástroj pro predikci genů pro anotaci prvního kompletně sekvenovaného bakteriálního genomu Haemophilus influenzae, a v roce 1996 pro první archaealní genom z Methanococcus jannaschii. Algoritmus zaveden nehomogenní tři periodické Markovův řetězec modely kódování proteinů Sekvence DNA který se stal standardem v genové predikci, stejně jako Bayesiánský přístup k genové predikci ve dvou řetězcích DNA současně. Druhově specifické parametry modelů byly odhadnuty z tréninkových sad sekvencí známého typu (kódování proteinů a nekódování). Hlavní krok algoritmu počítá pro daný fragment DNA zadní pravděpodobnost, že bude buď „kódující protein“ (nesoucí genetický kód ) v každém ze šesti možných čtecích rámců (včetně tří rámců v komplementární DNA vlákno) nebo „nekódující“. Original GeneMark (vyvinutý před érou HMM v Bioinformatice) je algoritmus podobný HMM; lze jej považovat za aproximaci známého v algoritmu zadního dekódování teorie HMM pro vhodně definovanou HMM.
Predikce prokaryotického genu
Algoritmus GeneMark.hmm (1998) byl navržen tak, aby zlepšil přesnost predikce genů při hledání krátkých genů a genových startů. Záměrem bylo integrovat modely řetězů Markov používané v GeneMark do skrytý Markovův model rámec, s přechodem mezi kódujícími a nekódujícími oblastmi formálně interpretovanými jako přechody mezi skrytými stavy. Navíc ribozom vazebné místo model byl použit ke zlepšení přesnosti predikce startu genu. Další krok byl učiněn s vývojem nástroje pro predikci genů pro autotrénink GeneMarkS (2001). GeneMarkS byl aktivně používán komunitou genomiky pro identifikaci genů v nových prokaryotických genomových sekvencích. GeneMarkS +, rozšíření GeneMarkS integrující informace o homologních proteinech do predikce genů se používá v potrubí NCBI pro anotaci prokaryotických genomů; potrubí může komentovat až 2 000 genomů denně (www.ncbi.nlm.nih.gov/genome/annotation_prok/process).
Heuristické modely a predikce genů v metagenomech a metatransciptomech
Klíčovou podmínkou pro přesné předpovědi genů byla přesná identifikace druhově specifických parametrů algoritmů GeneMark a GeneMark.hmm. Byla však vznesena otázka, motivovaná studiemi virových genomů, jak definovat parametry pro predikci genů v poměrně krátké sekvenci, která nemá velký genomický kontext. V roce 1999 byla tato otázka řešena vývojem „heuristické metody“ výpočtů parametrů jako funkcí obsahu sekvence G + C. Od roku 2004 se při hledání genů v metagenomických sekvencích používají modely vytvořené heuristickým přístupem. Následně analýza několika stovek prokaryotických genomů vedla v roce 2010 k vývoji pokročilejší heuristické metody (implementované v MetaGeneMark).
Predikce eukaryotických genů
V modelování eukaryotických genomů exon hranice s introny a intergenními oblastmi představuje hlavní výzvu řešenou použitím HMM. HMM architektura eukaryotického GeneMark.hmm zahrnuje skryté stavy pro počáteční, vnitřní a koncové exony, introny, intergenové oblasti a geny pro jediný exon umístěné v obou řetězcích DNA. Počáteční eukaryotický GeneMark.hmm potřeboval tréninkové sady pro odhad parametrů algoritmu. V roce 2005 byla vyvinuta první verze autotréninkového algoritmu GeneMark-ES. V roce 2008 byl algoritmus GeneMark-ES rozšířen na fungální genomy vyvinutím speciálního intronového modelu a složitější strategie autotréninku. Poté v roce 2014 byl do rodiny přidán algoritmus GeneMark-ET, který rozšířil autotrénink o informace z mapovaných na genomové nesestavené čtení RNA-Seq. Genovou predikci v eukaryotických přepisech lze provést pomocí nového algoritmu GeneMarkS-T (2015)
Rodina programů genové predikce GeneMark
Bakterie, Archaea
- GeneMark
- GeneMarkS
- GeneMarkS +
Metagenomy a metatranskripty
- MetaGeneMark
Eukaryoty
- GeneMark
- GeneMark.hmm [1]
- GeneMark-ES: algoritmus pro vyhledávání genů pro eukaryotické genomy, který provádí automatický trénink v režimu ab initio bez dozoru. [2]
- GeneMark-ET: rozšiřuje GeneMark-ES o novou metodu, která integruje RNA-Seq čtecí zarovnání do procedury autotréningu. [3]
- GeneMark-EX: plně automatický integrovaný nástroj pro anotaci genomu, který ukazuje robustní výkon ve vstupních datech různé velikosti, struktury a kvality. Algoritmus vybírá přístup k odhadu parametrů v závislosti na objemu, kvalitě a vlastnostech vstupních dat, velikosti datové sady RNA-seq, fylogenetické poloze druhu, stupni fragmentace sestavy. Je schopen automaticky upravit architekturu HMM tak, aby odpovídala vlastnostem daného genomu, a integrovat informace o transkriptu a proteinu do procesu predikce genu. [4]
Viry, fágy a plazmidy
- Heuristické modely
Přečetly se přepisy shromážděné z RNA-Seq
- GeneMarkS-T
Viz také
Reference
- Borodovsky M. a McIninch J. "GeneMark: paralelní rozpoznávání genů pro oba řetězce DNA. " Počítače a chemie (1993) 17 (2): 123–133.
- Lukashin A. a Borodovsky M. "GeneMark.hmm: nová řešení pro hledání genů. " Výzkum nukleových kyselin (1998) 26 (4): 1107–1115. doi:10.1093 / nar / 26.4.1107
- Besemer J. a Borodovsky M. "Heuristický přístup k odvozování modelů pro hledání genů. " Výzkum nukleových kyselin (1999) 27 (19): 3911–3920. doi:10.1093 / nar / 27.19.3911
- Besemer J., Lomsadze A. a Borodovsky M. "GeneMarkS: autotréningová metoda pro predikci genových startů v mikrobiálních genomech. Důsledky pro nalezení sekvenčních motivů v regulačních oblastech. " Výzkum nukleových kyselin (2001) 29 (12): 2607–2618. doi:10.1093 / nar / 29.12.2607
- Mills R., Rozanov M., Lomsadze A., Tatusova T. a Borodovsky M. "Zlepšení anotace genů v úplných virových genomech. " Výzkum nukleových kyselin (2003) 31 (23): 7041–7055. doi:10.1093 / nar / gkg878
- Besemer J. a Borodovsky M. "GeneMark: webový software pro hledání genů u prokaryot, eukaryot a virů. " Výzkum nukleových kyselin (2005) 33 (Vydání webového serveru): W451-454. doi:10.1093 / nar / gki487
- Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. a Borodovsky M. "Genová identifikace v nových eukaryotických genomech pomocí algoritmu autotréningu. " Výzkum nukleových kyselin (2005) 33 (20): 6494–6506. doi:10.1093 / nar / gki937
- Zhu W., Lomsadze A. a Borodovsky M. "Identifikace genu Ab initio v metagenomických sekvencích. " Výzkum nukleových kyselin (2010) 38 (12): e132. doi:10.1093 / nar / gkq275