Konsensuální projekt CDS - Consensus CDS Project

Projekt CCDS
Obsah
PopisKonvergence směrem ke standardní sadě anotací genů
Kontakt
Výzkumné centrumNárodní centrum pro biotechnologické informace
Evropský bioinformatický institut
University of California, Santa Cruz
Wellcome Trust Sanger Institute
AutořiPruitt KD
Primární citacePruitt KD a kol. (2009)[1]
Datum vydání2009
Přístup
webová stránkahttps://www.ncbi.nlm.nih.gov/projects/CCDS/CcdsBrowse.cgi
Smíšený
VerzeCCDS Release 21

The Projekt CCDS (Consensus Coding Sequence) je společným úsilím udržovat datovou sadu oblastí kódujících proteiny, které jsou identicky anotovány na sestavách referenčního genomu člověka a myši. Projekt CCDS sleduje identické proteinové anotace na referenčních myších a lidských genomech se stabilním identifikátorem (CCDS ID) a zajišťuje, aby byly konzistentně reprezentovány Národním centrem pro biotechnologické informace (NCBI), Ensembl, a UCSC Genome Browser.[1] Integrita datové sady CCDS je udržována přísně testování zajištění kvality a pokračuje ruční kurace.[2]

Motivace a pozadí

Biologický a biomedicínský výzkum se spoléhal na přesnou a důslednou anotaci genů a jejich produktů na genomových souborech. Referenční anotace genomů jsou k dispozici z různých zdrojů, z nichž každý má své vlastní nezávislé cíle a zásady, což má za následek určité variace anotací.

Projekt CCDS byl založen za účelem identifikace zlaté standardní sady anotací genů kódujících proteiny, které jsou shodně anotovány na lidském i myším referenční genom sestavy zúčastněnými skupinami anotací. Sady genů CCDS, k nimž se dospělo na základě konsensu různých partnerů [2] nyní se skládá z více než 18 000 lidských a více než 20 000 myších genů (viz Historie vydání CCDS ). Datová sada CCDS stále více představuje více alternativní sestřih události s každou novou verzí.[3]

Přispívající skupiny

Mezi zúčastněné skupiny anotací patří:[3]

  • Národní centrum pro biotechnologické informace (NCBI)
  • Evropský bioinformatický institut (EBI)
  • Wellcome Trust Sanger Institute (WTSI)
  • Výbor pro genovou nomenklaturu HUGO (HGNC)
  • Myší genomová informatika (MGI)

Ruční anotaci poskytuje:

  • Referenční sekvence (RefSeq ) v NCBI
  • Analýza a anotace člověka a obratlovců (HAVANA) v WTSI

Definování sady genů CCDS

„Konsenzus“ je definován jako oblasti kódující bílkoviny, které se shodují na start kodonu, stop kodonu a spojovacích spojích a pro které předpověď splňuje měřítka zajištění kvality.[1] Kombinace manuálních a automatických anotací genomu poskytovaných (NCBI) a Ensembl (který zahrnuje ruční anotace HAVANA) jsou porovnávány za účelem identifikace anotací se shodnými genomickými souřadnicemi.

Testování zajištění kvality

Aby se zajistila vysoká kvalita CDS, provádí se několik testů zajištění kvality (QA) (tabulka 1). Všechny testy se provádějí po kroku porovnání anotací každého sestavení CCDS a jsou nezávislé na testech QA jednotlivých skupin anotací prováděných před porovnáním anotací.[3]

Tabulka 1: Příklady typů testů QA CCDS prováděných před přijetím kandidátů na CCDS [3]
QA testÚčel zkoušky
S výhradou NMDKontroly přepisů, které mohou být předmětem nesmyslem zprostředkovaného rozpadu (NMD)
Nízká kvalitaZkontroluje nízkou náchylnost ke kódování
Nekonsenzuální spojovací webyKontroly pro nekanonické spojovací weby
Předpokládaný pseudogenZkontroluje geny, u nichž UCSC předpovídá, že budou pseudogeny
Moc krátkýKontroly transkriptů nebo proteinů, které jsou neobvykle krátké, obvykle <100 aminokyselin
Ortholog nebyl nalezen / není konzervovánZkontroluje geny, které nejsou konzervované a / nebo nejsou v klastru HomoloGene
Spuštění nebo zastavení CDS není v zákrytuZkontroluje počáteční nebo konečný kodon v sekvenci referenčního genomu
Interní dorazZkontroluje přítomnost interního stop kodonu v genomové sekvenci
NCBI: Délka proteinu Ensemble odlišnáZkontroluje, zda má protein kódovaný NCBI RefSeq stejnou délku jako protein EBI / WTSI
NCBI: Ensembl low percent identityZkontroluje> 99% celkovou identitu mezi proteiny NCBI a EBI / WTSI
Gen přerušenZkontroluje, zda GeneID již není platný

Anotace, které neprošly testy QA, projdou kolom manuální kontroly, která může zlepšit výsledky nebo dospět k rozhodnutí odmítnout shody anotací na základě selhání QA.

Proces kontroly

Databáze CCDS je jedinečná v tom, že proces kontroly musí provádět více spolupracovníků a musí být dosaženo dohody před provedením jakýchkoli změn. To je možné díky koordinačnímu systému spolupracovníků, který zahrnuje tok pracovního procesu a fóra pro analýzu a diskusi. Databáze CCDS provozuje interní webovou stránku, která slouží mnoha účelům, včetně komunikace kurátora, hlasování spolupracovníků, poskytování zvláštních zpráv a sledování stavu reprezentací CCDS. Když spolupracující člen skupiny CCDS identifikuje ID CCDS, které může vyžadovat kontrolu, použije se hlasovací proces k rozhodnutí o konečném výsledku.

Ruční kurace

Koordinované ruční kurátorství je podporováno webem s omezeným přístupem a diskusním e-mailovým seznamem. Byly vytvořeny pokyny pro kurátorství CCDS s cílem řešit konkrétní konflikty, které byly pozorovány s vyšší frekvencí. Stanovení pokynů pro kuraci CCDS pomohlo zefektivnit proces kurace CCDS snížením počtu protichůdných hlasů a času stráveného diskusemi k dosažení konsensuální dohody. Odkaz na pokyny pro kurátorství CCDS lze nalézt tady.

Kurátorské politiky stanovené pro soubor dat CCDS byly integrovány do RefSeq a pokyny pro anotace HAVANA, a proto nové anotace poskytované oběma skupinami budou pravděpodobně shodnější a budou mít za následek přidání ID CCDS. Tyto standardy se zaměřují na konkrétní problémové oblasti, nejsou ucelenou sadou pokynů pro anotace a neomezují zásady anotací žádné spolupracující skupiny.[2] Jako příklady lze uvést standardizované kurátorské pokyny pro výběr iniciačního kodonu a interpretaci upstream ORF a přepisy, u nichž se předpokládá, že budou kandidáty nesmysl zprostředkovaný úpadek. Kurátor probíhá nepřetržitě a kterékoli ze spolupracujících center může označit ID CCDS jako potenciální aktualizaci nebo výběr.

Konfliktní stanoviska jsou řešena konzultací s vědeckými odborníky nebo jinými skupinami pro anotaci, jako je Výbor pro genovou nomenklaturu HUGO (HGNC) a myší genomová informatika (MGI). Pokud nelze konflikt vyřešit, pak spolupracovníci souhlasí s odebráním ID CCDS, dokud nebudou k dispozici další informace.

Kurátorské výzvy a pokyny pro anotace

Nesmysl zprostředkovaný rozpad (NMD):NMD je nejmocnější mRNA proces dozoru. NMD eliminuje vadné mRNA než může být převeden na protein.[4] To je důležité, protože pokud je vadné mRNA Přeloženo, zkrácený protein může způsobit onemocnění. K vysvětlení byly navrženy různé mechanismy NMD; jeden je komplex exonových spojů (EJC). V tomto modelu, pokud je stop kodon> 50 nt před posledním spojením exon-exon, se předpokládá, že transkript je NMD kandidát.[2] Spolupracovníci CCDS používají konzervativní metodu na základě transkriptů mRNA založenou na modelu EJC. Veškeré přepisy, u nichž bylo zjištěno, že jsou NMD kandidáti jsou vyloučeni ze souboru dat CCDS, s výjimkou následujících situací:[2]

  1. všechny přepisy na jednom konkrétním místě jsou hodnoceny jako NMD kandidáti, nicméně lokus je dříve známý jako oblast kódující protein;
  2. existují experimentální důkazy o tom, že funkční protein je produkován z NMD přepis kandidáta.

Dříve, NMD kandidátské transkripty byly oběmi považovány za transkripty kódující protein RefSeq a HAVANA, a tím i tyto NMD kandidátské přepisy byly zastoupeny v datové sadě CCDS. The RefSeq skupina a projekt HAVANA následně revidovaly své zásady anotací.

Více počátečních stránek překladu v rámci:K zahájení překladu přispívá více faktorů, například upstream otevřené čtecí rámce (uORF), sekundární struktura a kontext sekvence kolem místa zahájení translace. Společné počáteční místo je definováno v Kozakově konsensuální sekvenci: (GCC) GCCACCAUGG u obratlovců. Sekvence v závorkách (GCC) je motiv s neznámým biologickým dopadem.[5] V rámci Kozakovy konsensuální sekvence existují variace, například G nebo A jsou pozorovány tři nukleotidy před (v poloze -3) AUG. Základny mezi pozicemi -3 a +4 Kozakovy sekvence mají nejvýznamnější vliv na účinnost translace. Sekvence (A / G) NNAUGG je tedy v projektu CCDS definována jako silný Kozakův signál.

Podle skenovacího mechanismu může malá ribozomální podjednotka iniciovat translaci z prvního dosaženého počátečního kodonu. U modelu skenování existují výjimky:

  1. když iniciační místo není obklopeno silným Kozakovým signálem, což má za následek netěsné skenování. Tím se ribozom přeskočí tento AUG a zahájí překlad z navazujícího startovacího místa;
  2. když kratší ORF může povolit ribozom znovu zahájit překlad v navazujícím směru ORF.[5]

Podle pokynů pro anotace CCDS nejdelší ORF musí být opatřeny poznámkami, kromě případů, kdy existují experimentální důkazy o tom, že k zahájení překladu je použit interní počáteční web. Navíc další typy nových dat, jako jsou data profilování ribozomu,[6] lze použít k identifikaci počátečních kodonů. Datová sada CCDS zaznamenává jedno místo zahájení překladu na jedno ID CCDS. K překladu lze použít jakékoli alternativní počáteční weby, které budou uvedeny ve veřejné poznámce CCDS.

Upstream otevřené čtecí rámce:Inicializační kodony AUG umístěné uvnitř vedoucích transkriptů jsou známy jako upstream AUG (uAUG). Někdy jsou uAUG spojeny s uORF . uORF se nacházejí v přibližně 50% lidských a myších transkriptů.[7] Existence uORF jsou další výzvou pro soubor dat CCDS. Skenovací mechanismus pro iniciaci translace naznačuje, že malé ribozomální podjednotky (40S) se vážou na 5 'konci rodícího se mRNA přepisovat a skenovat první startovací kodon AUG.[5] Je možné, že je nejprve rozpoznán uAUG a poté je přeložen odpovídající uORF. Přeložený uORF může být NMD kandidát, ačkoli studie ukázaly, že některé uORF může se vyhnout NMD. Průměrný limit velikosti uORF který unikne NMD je přibližně 35 aminokyseliny.[2][8] Rovněž bylo navrženo, že uORF inhibovat translaci downstream genu zachycením a ribozom iniciační komplex a způsobení ribozom oddělit se od mRNA transkript, než dosáhne oblastí kódujících bílkoviny.[4][7] V současné době žádné studie neuvádějí globální dopad uORF o překladové regulaci.

Stávající pokyny pro anotace CCDS umožňují zahrnout mRNA přepisy obsahující uORF pokud splňují následující dva biologické požadavky:[2]

  1. the mRNA přepis má silný Kozakův signál;
  2. the mRNA přepis je buď ≥ 35 aminokyseliny nebo se překrývá s primárním otevřený čtecí rámec.

Přečtené přepisy:Přečtené přepisy jsou také známé jako spojené geny nebo společně transkribované geny. Přečtené přepisy jsou definovány jako přepisy kombinující alespoň část jednoho exonu z každého ze dvou nebo více odlišných známých (partnerských) genů, které leží na stejném chromozomu ve stejné orientaci.[9] Biologická funkce předepsaných transkriptů a jejich odpovídajících proteinových molekul zůstává neznámá. Definice genu pro čtení v souboru dat CCDS je však taková, že jednotlivé partnerské geny musí být odlišné a transkripty pro čtení musí sdílet ≥ 1 exon (nebo ≥ 2 místa sestřihu, s výjimkou sdíleného terminálu). exon) s každým zřetelně kratších lokusů.[2] Přepisy se za následujících okolností nepovažují za přepisy pro čtení.

  1. když jsou přepisy vytvořeny z překrývající se geny ale nesdílejte stejné spojovací weby;
  2. když jsou přepisy přeloženy z genů, které mají vzájemně vnořené struktury. V tomto případě spolupracují CCDS a HGNC se dohodli, že přepis pro čtení bude představován jako samostatný lokus.

Kvalita sekvence referenčního genomu:Jelikož je soubor dat CCDS vytvořen tak, aby představoval genomické anotace člověka a myši, problémy s kvalitou člověka a myši referenční genom sekvence se stávají další výzvou. Problémy s kvalitou nastávají, když je referenční genom nesprávně sestaven. Takto může nesprávně sestavený genom obsahovat předčasné stop kodony, rám-shift indels, nebo pravděpodobně polymorfní pseudogeny. Jakmile jsou tyto problémy s kvalitou identifikovány, hlásí spolupracovníci CCDS tyto problémy Genome Reference Consortium, které vyšetřuje a provádí nezbytné opravy.

Přístup k datům CCDS

Projekt CCDS je k dispozici na stránce datové sady NCBI CCDS (tady), která poskytuje odkazy ke stažení FTP a rozhraní dotazu k získání informací o sekvencích a umístěních CCDS. Zprávy CCDS lze získat pomocí rozhraní dotazu, které je umístěno v horní části stránky datové sady CCDS. Uživatelé si mohou vybrat různé typy identifikátorů, jako je CCDS ID, ID genu, genový symbol, ID nukleotidu a ID proteinu, aby vyhledali konkrétní informace CCDS.[1] Zprávy CCDS (obrázek 1) jsou prezentovány ve formátu tabulky s odkazy na konkrétní zdroje, jako je například historie, Entrez Gene [10] nebo znovu vyhledejte datovou sadu CCDS. Tabulka identifikátorů sekvencí uvádí informace o přepisu v VEGA, Ensembl a Blikat. Tabulka umístění chromozomů zahrnuje genomové souřadnice pro každý jednotlivý exon specifické kódující sekvence. Tato tabulka také poskytuje odkazy na několik různých prohlížečů genomu, které vám umožňují vizualizovat strukturu kódující oblasti.[1] Přesná nukleotidová sekvence a proteinová sekvence specifické kódující sekvence jsou také zobrazeny v sekci CCDS sekvenční data.

Obrázek 1. Snímek obrazovky datové sady CCDS zobrazující zprávu o proteinu Itm2a (CCDS 30349).

Aktuální aplikace

Datová sada CCDS je nedílnou součástí GENCODE projekt genové anotace[11] a používá se jako standard pro vysoce kvalitní definici exonu v kódování v různých oblastech výzkumu, včetně klinických studií ve velkém měřítku epigenomický studie, exome projekty a design exonového pole.[3] Kvůli konsensuální anotaci CCDS exonů nezávislými anotačními skupinami exome zejména projekty považovaly exony kódující CCDS za spolehlivé cíle pro navazující studie (např varianta s jedním nukleotidem detekce) a tyto exony byly použity jako oblast kódování cíle v komerčně dostupných exome soupravy.[12]

Historie vydání CCDS

Velikost datové sady CCDS se nadále zvyšuje s aktualizacemi anotací výpočetního genomu, které integrují nové datové sady odeslané do mezinárodní databáze nukleotidových sekvencí. (INSDC ) a na probíhajících kurátorských činnostech, které doplňují nebo vylepšují tuto anotaci. Tabulka 2 shrnuje klíčové statistiky pro každé sestavení CCDS kde Veřejná ID CCDS jsou všechny ty, které nebyly v době aktuálního data vydání zkontrolovány nebo čekají na aktualizaci nebo stažení.

Tabulka 2. Souhrnná statistika minulých vydání CCDS.
UvolněníDruhNázev sestavyPočet veřejných CCDS IDPočet genových IDAktuální datum vydání
1Homo sapiensNCBI3513,74012,95014. března 2007
2Mus musculusMGSCv3613,21813,01228. listopadu 2007
3Homo sapiensNCBI3617,49415,8051. května 2008
4Mus musculusMGSCv3717, 08216,88824. ledna 2011
5Homo sapiensNCBI3619,39317,0532. září 2009
6Homo sapiensGRCh3722,91218,17420. dubna 2011
7Mus musculusMGSCv3721,87419,50714. srpna 2012
8Homo sapiensGRCh37.p225,35418,4076. září 2011
9Homo sapiensGRCh37.p526,25418,47425. října 2012
10Mus musculusGRCm3822,93419,9455. srpna 2013
11Homo sapiensGRCh37.p927,37718,53529.dubna 2013
12Homo sapiensGRCh37.p1027,65518,60724. října 2013
13Mus musculusGRCm38.p123,01019,9907. dubna 2014
14Homo sapiensGRCh37.p1328,64918,67329. listopadu 2013
15Homo sapiensGRCh37.p1328,89718,6817. srpna 2014
16Mus musculusGRCm38.p223,83520,07910. září 2014
17Homo sapiensGRCh3830,46118,80010. září 2014
18Homo sapiensGRCh38.p231,37118,82612. května 2015
19Mus musculusGRCm38.p324,83420,21530. července 2015
20Homo sapiensGRCh38.p732,52418,8928. září 2016
21Mus musculusGRCm38.p425,75720,3548. prosince 2016

Kompletní soubor statistik vydání lze nalézt na oficiálních webových stránkách CCDS na jejich Zprávy a statistiky strana.

Budoucí prospekty

Dlouhodobé cíle zahrnují přidání atributů, které označují, kde je stejná anotace přepisu (včetně UTR ) a k označení variant sestřihu s různými UTR které mají stejné ID CCDS. Očekává se také, že jakmile budou k dispozici úplnější a vysoce kvalitní údaje o sekvenci genomu pro jiné organismy, mohou být reprezentace CCDS v anotacích od těchto organismů.

Sada CCDS bude úplnější, protože nezávislé skupiny kurátorů se dohodnou na případech, kdy se původně liší, protože dojde k další experimentální validaci slabě podporovaných genů a jak se budou metody anotací dále zlepšovat. Komunikace mezi spolupracujícími skupinami CCDS probíhá a vyřeší rozdíly a určí upřesnění mezi cykly aktualizace CCDS. Očekává se, že lidské aktualizace budou probíhat zhruba každých 6 měsíců a myši budou vydávány každý rok.[3]

Viz také

Reference

  1. ^ A b C d E Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez- Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR , Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D (2009 ). „Projekt konsensuální kódující sekvence (CCDS): Identifikace společné sady genů kódujících proteiny pro lidské a myší genomy“. Genome Res. 19 (7): 1316–23. doi:10.1101 / gr.080531.108. PMC  2704439. PMID  19498102.
  2. ^ A b C d E F G h Harte, RA; Farrell, CM; Loveland, JE; Suner, MM; Wilming, L; Aken, B; Barrell, D; Frankish, A; Wallin, C; Searle, S; Diekhans, M; Harrow, J; Pruitt, KD (2012). „Sledování a koordinace mezinárodního kurátorského úsilí pro projekt CCDS“. Databáze. 2012: bas008. doi:10.1093 / databáze / bas008. PMC  3308164. PMID  22434842.
  3. ^ A b C d E F Farrell, CM; O'Leary, NA; Harte, RA; Loveland, JE; Wilming, LG; Wallin, C; Diehans, M; Barrell, D; Searle, SM; Aken, B; Hiatt, SM; Frankish, A; Suner, MM; Rajput, B; Steward, CA; Brown, GR; Bennet, R; Murphy, M; Wu, W; Kay, MP; Hart, J; Rajan, J; Weber, J; Sníh, C; Riddick, LD; Hunt, T; Webb, D; Thomas, M; Tamez, P; Rangwala, SH; McGarvey, KM; Pujar, S; Shkeda, A; Mudge, JM; Gonzale, JM; Gilbert, JG; Trevaion, SJ; Baetsch, R; Harrow, JL; Hubbard, T; Ostell, JM; Haussler, D; Pruitt, KD (2014). „Aktuální stav a nové funkce databáze Consensus Coding Sequence“. Nucleic Acids Res. 42 (D1): D865 – D872. doi:10.1093 / nar / gkt1059. PMC  3965069. PMID  24217909.
  4. ^ A b Alberts, B; Johnson, A; Lewis, J; Raff, M; Roberts, K; Walter, P (2002). Molekulární biologie buňky 5. vydání. New York: Garland Science.
  5. ^ A b C Kozak, M (2002). „Posunutí mezí skenovacího mechanismu pro zahájení překladu“. Gen. 299 (1–2): 1–34. doi:10.1016 / S0378-1119 (02) 01056-9. PMC  7126118. PMID  12459250.
  6. ^ Ingolia, NT; Brar, GA; Rouskin, S; McGeachy, AM; Weissman, JS (2014). „Anotace v celém genomu a kvantifikace překladu pomocí profilování Ribosome“. Curr. Protoc. Mol. Biol. Kapitola 4: Jednotka – 4.18. doi:10.1002 / 0471142727.mb0418s103. ISBN  9780471142720. PMC  3775365. PMID  23821443.
  7. ^ A b Calvo, SE; Pagliarni, DJ; Mootha, VK (2009). „Upstream otevřené čtecí rámce způsobují rozsáhlou redukci exprese proteinů a jsou polymorfní mezi lidmi“ (PDF). Proc. Natl. Acad. Sci. USA. 106 (18): 7507–12. Bibcode:2009PNAS..106,7507C. doi:10.1073 / pnas.0810916106. PMC  2669787. PMID  19372376.
  8. ^ Silva, AL; Pereira, FJC; Morgado, A; Kong, J; Martins, R; Faustino, P; Liebhaber, SA; Romao, L (2006). „Kanonický nezmyslem zprostředkovaný rozpad mRNA závislý na UPF1 je inhibován v transkriptech nesoucích krátký otevřený čtecí rámec nezávislý na kontextu sekvence“. RNA. 12 (12): 2160–70. doi:10.1261 / rna.201406. PMC  1664719. PMID  17077274.
  9. ^ Prakash, Tulika; Sharma, Vineet K .; Adati, Naoki; Ozawa, Ritsuko; Kumar, Naveen; Nishida, Yuichiro; Fujikake, Takayoshi; Takeda, Tadayuki; Taylor, Todd D .; Michalak, Pawel (12. října 2010). „Exprese spojených genů: Další mechanismus regulace genů u eukaryot“. PLOS ONE. 5 (10): e13284. Bibcode:2010PLoSO ... 513284P. doi:10.1371 / journal.pone.0013284. PMC  2953495. PMID  20967262.
  10. ^ Maglott, D .; Ostell, J .; Pruitt, K. D .; Tatusova, T. (28. listopadu 2010). „Entrez Gene: informace zaměřené na geny v NCBI“. Nucleic Acids Res. 39 (Databáze): D52 – D57. doi:10.1093 / nar / gkq1237. PMC  3013746. PMID  21115458.
  11. ^ Harrow, J .; Frankish, A .; Gonzalez, J. M .; Tapanari, E .; Diekhans, M .; Kokocinski, F .; Aken, B.L .; Barrell, D .; Zadissa, A .; Searle, S .; Barnes, I .; Bignell, A .; Boychenko, V .; Hunt, T .; Kay, M .; Mukherjee, G .; Rajan, J .; Despacio-Reyes, G .; Saunders, G .; Steward, C .; Harte, R .; Lin, M .; Howald, C .; Tanzer, A .; Derrien, T .; Chrast, J .; Walters, N .; Balasubramanian, S .; Pei, B .; Tress, M .; Rodriguez, J. M .; Ezkurdia, I .; van Baren, J .; Brent, M .; Haussler, D .; Kellis, M .; Valencia, A .; Reymond, A .; Gerstein, M .; Guigo, R .; Hubbard, T. J. (5. září 2012). „GENCODE: anotace referenčního lidského genomu pro projekt ENCODE“. Genome Res. 22 (9): 1760–1774. doi:10,1101 / gr.135350.111. PMC  3431492. PMID  22955987.
  12. ^ Parla, Jennifer S; Iossifov, Ivan; Grabill, Ian; Spector, Mona S; Kramer, Melissa; McCombie, W Richard (2011). „Srovnávací analýza zachycení exomu“. Genome Biol. 12 (9): R97. doi:10.1186 / gb-2011-12-9-r97. PMC  3308060. PMID  21958622.

externí odkazy