Konsensuální projekt CDS - Consensus CDS Project
Obsah | |
---|---|
Popis | Konvergence směrem ke standardní sadě anotací genů |
Kontakt | |
Výzkumné centrum | Národní centrum pro biotechnologické informace Evropský bioinformatický institut University of California, Santa Cruz Wellcome Trust Sanger Institute |
Autoři | Pruitt KD |
Primární citace | Pruitt KD a kol. (2009)[1] |
Datum vydání | 2009 |
Přístup | |
webová stránka | https://www.ncbi.nlm.nih.gov/projects/CCDS/CcdsBrowse.cgi |
Smíšený | |
Verze | CCDS Release 21 |
The Projekt CCDS (Consensus Coding Sequence) je společným úsilím udržovat datovou sadu oblastí kódujících proteiny, které jsou identicky anotovány na sestavách referenčního genomu člověka a myši. Projekt CCDS sleduje identické proteinové anotace na referenčních myších a lidských genomech se stabilním identifikátorem (CCDS ID) a zajišťuje, aby byly konzistentně reprezentovány Národním centrem pro biotechnologické informace (NCBI), Ensembl, a UCSC Genome Browser.[1] Integrita datové sady CCDS je udržována přísně testování zajištění kvality a pokračuje ruční kurace.[2]
Motivace a pozadí
Biologický a biomedicínský výzkum se spoléhal na přesnou a důslednou anotaci genů a jejich produktů na genomových souborech. Referenční anotace genomů jsou k dispozici z různých zdrojů, z nichž každý má své vlastní nezávislé cíle a zásady, což má za následek určité variace anotací.
Projekt CCDS byl založen za účelem identifikace zlaté standardní sady anotací genů kódujících proteiny, které jsou shodně anotovány na lidském i myším referenční genom sestavy zúčastněnými skupinami anotací. Sady genů CCDS, k nimž se dospělo na základě konsensu různých partnerů [2] nyní se skládá z více než 18 000 lidských a více než 20 000 myších genů (viz Historie vydání CCDS ). Datová sada CCDS stále více představuje více alternativní sestřih události s každou novou verzí.[3]
Přispívající skupiny
Mezi zúčastněné skupiny anotací patří:[3]
- Národní centrum pro biotechnologické informace (NCBI)
- Evropský bioinformatický institut (EBI)
- Wellcome Trust Sanger Institute (WTSI)
- Výbor pro genovou nomenklaturu HUGO (HGNC)
- Myší genomová informatika (MGI)
Ruční anotaci poskytuje:
Definování sady genů CCDS
„Konsenzus“ je definován jako oblasti kódující bílkoviny, které se shodují na start kodonu, stop kodonu a spojovacích spojích a pro které předpověď splňuje měřítka zajištění kvality.[1] Kombinace manuálních a automatických anotací genomu poskytovaných (NCBI) a Ensembl (který zahrnuje ruční anotace HAVANA) jsou porovnávány za účelem identifikace anotací se shodnými genomickými souřadnicemi.
Testování zajištění kvality
Aby se zajistila vysoká kvalita CDS, provádí se několik testů zajištění kvality (QA) (tabulka 1). Všechny testy se provádějí po kroku porovnání anotací každého sestavení CCDS a jsou nezávislé na testech QA jednotlivých skupin anotací prováděných před porovnáním anotací.[3]
QA test | Účel zkoušky |
---|---|
S výhradou NMD | Kontroly přepisů, které mohou být předmětem nesmyslem zprostředkovaného rozpadu (NMD) |
Nízká kvalita | Zkontroluje nízkou náchylnost ke kódování |
Nekonsenzuální spojovací weby | Kontroly pro nekanonické spojovací weby |
Předpokládaný pseudogen | Zkontroluje geny, u nichž UCSC předpovídá, že budou pseudogeny |
Moc krátký | Kontroly transkriptů nebo proteinů, které jsou neobvykle krátké, obvykle <100 aminokyselin |
Ortholog nebyl nalezen / není konzervován | Zkontroluje geny, které nejsou konzervované a / nebo nejsou v klastru HomoloGene |
Spuštění nebo zastavení CDS není v zákrytu | Zkontroluje počáteční nebo konečný kodon v sekvenci referenčního genomu |
Interní doraz | Zkontroluje přítomnost interního stop kodonu v genomové sekvenci |
NCBI: Délka proteinu Ensemble odlišná | Zkontroluje, zda má protein kódovaný NCBI RefSeq stejnou délku jako protein EBI / WTSI |
NCBI: Ensembl low percent identity | Zkontroluje> 99% celkovou identitu mezi proteiny NCBI a EBI / WTSI |
Gen přerušen | Zkontroluje, zda GeneID již není platný |
Anotace, které neprošly testy QA, projdou kolom manuální kontroly, která může zlepšit výsledky nebo dospět k rozhodnutí odmítnout shody anotací na základě selhání QA.
Proces kontroly
Databáze CCDS je jedinečná v tom, že proces kontroly musí provádět více spolupracovníků a musí být dosaženo dohody před provedením jakýchkoli změn. To je možné díky koordinačnímu systému spolupracovníků, který zahrnuje tok pracovního procesu a fóra pro analýzu a diskusi. Databáze CCDS provozuje interní webovou stránku, která slouží mnoha účelům, včetně komunikace kurátora, hlasování spolupracovníků, poskytování zvláštních zpráv a sledování stavu reprezentací CCDS. Když spolupracující člen skupiny CCDS identifikuje ID CCDS, které může vyžadovat kontrolu, použije se hlasovací proces k rozhodnutí o konečném výsledku.
Ruční kurace
Koordinované ruční kurátorství je podporováno webem s omezeným přístupem a diskusním e-mailovým seznamem. Byly vytvořeny pokyny pro kurátorství CCDS s cílem řešit konkrétní konflikty, které byly pozorovány s vyšší frekvencí. Stanovení pokynů pro kuraci CCDS pomohlo zefektivnit proces kurace CCDS snížením počtu protichůdných hlasů a času stráveného diskusemi k dosažení konsensuální dohody. Odkaz na pokyny pro kurátorství CCDS lze nalézt tady.
Kurátorské politiky stanovené pro soubor dat CCDS byly integrovány do RefSeq a pokyny pro anotace HAVANA, a proto nové anotace poskytované oběma skupinami budou pravděpodobně shodnější a budou mít za následek přidání ID CCDS. Tyto standardy se zaměřují na konkrétní problémové oblasti, nejsou ucelenou sadou pokynů pro anotace a neomezují zásady anotací žádné spolupracující skupiny.[2] Jako příklady lze uvést standardizované kurátorské pokyny pro výběr iniciačního kodonu a interpretaci upstream ORF a přepisy, u nichž se předpokládá, že budou kandidáty nesmysl zprostředkovaný úpadek. Kurátor probíhá nepřetržitě a kterékoli ze spolupracujících center může označit ID CCDS jako potenciální aktualizaci nebo výběr.
Konfliktní stanoviska jsou řešena konzultací s vědeckými odborníky nebo jinými skupinami pro anotaci, jako je Výbor pro genovou nomenklaturu HUGO (HGNC) a myší genomová informatika (MGI). Pokud nelze konflikt vyřešit, pak spolupracovníci souhlasí s odebráním ID CCDS, dokud nebudou k dispozici další informace.
Kurátorské výzvy a pokyny pro anotace
Nesmysl zprostředkovaný rozpad (NMD):NMD je nejmocnější mRNA proces dozoru. NMD eliminuje vadné mRNA než může být převeden na protein.[4] To je důležité, protože pokud je vadné mRNA Přeloženo, zkrácený protein může způsobit onemocnění. K vysvětlení byly navrženy různé mechanismy NMD; jeden je komplex exonových spojů (EJC). V tomto modelu, pokud je stop kodon> 50 nt před posledním spojením exon-exon, se předpokládá, že transkript je NMD kandidát.[2] Spolupracovníci CCDS používají konzervativní metodu na základě transkriptů mRNA založenou na modelu EJC. Veškeré přepisy, u nichž bylo zjištěno, že jsou NMD kandidáti jsou vyloučeni ze souboru dat CCDS, s výjimkou následujících situací:[2]
- všechny přepisy na jednom konkrétním místě jsou hodnoceny jako NMD kandidáti, nicméně lokus je dříve známý jako oblast kódující protein;
- existují experimentální důkazy o tom, že funkční protein je produkován z NMD přepis kandidáta.
Dříve, NMD kandidátské transkripty byly oběmi považovány za transkripty kódující protein RefSeq a HAVANA, a tím i tyto NMD kandidátské přepisy byly zastoupeny v datové sadě CCDS. The RefSeq skupina a projekt HAVANA následně revidovaly své zásady anotací.
Více počátečních stránek překladu v rámci:K zahájení překladu přispívá více faktorů, například upstream otevřené čtecí rámce (uORF), sekundární struktura a kontext sekvence kolem místa zahájení translace. Společné počáteční místo je definováno v Kozakově konsensuální sekvenci: (GCC) GCCACCAUGG u obratlovců. Sekvence v závorkách (GCC) je motiv s neznámým biologickým dopadem.[5] V rámci Kozakovy konsensuální sekvence existují variace, například G nebo A jsou pozorovány tři nukleotidy před (v poloze -3) AUG. Základny mezi pozicemi -3 a +4 Kozakovy sekvence mají nejvýznamnější vliv na účinnost translace. Sekvence (A / G) NNAUGG je tedy v projektu CCDS definována jako silný Kozakův signál.
Podle skenovacího mechanismu může malá ribozomální podjednotka iniciovat translaci z prvního dosaženého počátečního kodonu. U modelu skenování existují výjimky:
- když iniciační místo není obklopeno silným Kozakovým signálem, což má za následek netěsné skenování. Tím se ribozom přeskočí tento AUG a zahájí překlad z navazujícího startovacího místa;
- když kratší ORF může povolit ribozom znovu zahájit překlad v navazujícím směru ORF.[5]
Podle pokynů pro anotace CCDS nejdelší ORF musí být opatřeny poznámkami, kromě případů, kdy existují experimentální důkazy o tom, že k zahájení překladu je použit interní počáteční web. Navíc další typy nových dat, jako jsou data profilování ribozomu,[6] lze použít k identifikaci počátečních kodonů. Datová sada CCDS zaznamenává jedno místo zahájení překladu na jedno ID CCDS. K překladu lze použít jakékoli alternativní počáteční weby, které budou uvedeny ve veřejné poznámce CCDS.
Upstream otevřené čtecí rámce:Inicializační kodony AUG umístěné uvnitř vedoucích transkriptů jsou známy jako upstream AUG (uAUG). Někdy jsou uAUG spojeny s uORF . uORF se nacházejí v přibližně 50% lidských a myších transkriptů.[7] Existence uORF jsou další výzvou pro soubor dat CCDS. Skenovací mechanismus pro iniciaci translace naznačuje, že malé ribozomální podjednotky (40S) se vážou na 5 'konci rodícího se mRNA přepisovat a skenovat první startovací kodon AUG.[5] Je možné, že je nejprve rozpoznán uAUG a poté je přeložen odpovídající uORF. Přeložený uORF může být NMD kandidát, ačkoli studie ukázaly, že některé uORF může se vyhnout NMD. Průměrný limit velikosti uORF který unikne NMD je přibližně 35 aminokyseliny.[2][8] Rovněž bylo navrženo, že uORF inhibovat translaci downstream genu zachycením a ribozom iniciační komplex a způsobení ribozom oddělit se od mRNA transkript, než dosáhne oblastí kódujících bílkoviny.[4][7] V současné době žádné studie neuvádějí globální dopad uORF o překladové regulaci.
Stávající pokyny pro anotace CCDS umožňují zahrnout mRNA přepisy obsahující uORF pokud splňují následující dva biologické požadavky:[2]
- the mRNA přepis má silný Kozakův signál;
- the mRNA přepis je buď ≥ 35 aminokyseliny nebo se překrývá s primárním otevřený čtecí rámec.
Přečtené přepisy:Přečtené přepisy jsou také známé jako spojené geny nebo společně transkribované geny. Přečtené přepisy jsou definovány jako přepisy kombinující alespoň část jednoho exonu z každého ze dvou nebo více odlišných známých (partnerských) genů, které leží na stejném chromozomu ve stejné orientaci.[9] Biologická funkce předepsaných transkriptů a jejich odpovídajících proteinových molekul zůstává neznámá. Definice genu pro čtení v souboru dat CCDS je však taková, že jednotlivé partnerské geny musí být odlišné a transkripty pro čtení musí sdílet ≥ 1 exon (nebo ≥ 2 místa sestřihu, s výjimkou sdíleného terminálu). exon) s každým zřetelně kratších lokusů.[2] Přepisy se za následujících okolností nepovažují za přepisy pro čtení.
- když jsou přepisy vytvořeny z překrývající se geny ale nesdílejte stejné spojovací weby;
- když jsou přepisy přeloženy z genů, které mají vzájemně vnořené struktury. V tomto případě spolupracují CCDS a HGNC se dohodli, že přepis pro čtení bude představován jako samostatný lokus.
Kvalita sekvence referenčního genomu:Jelikož je soubor dat CCDS vytvořen tak, aby představoval genomické anotace člověka a myši, problémy s kvalitou člověka a myši referenční genom sekvence se stávají další výzvou. Problémy s kvalitou nastávají, když je referenční genom nesprávně sestaven. Takto může nesprávně sestavený genom obsahovat předčasné stop kodony, rám-shift indels, nebo pravděpodobně polymorfní pseudogeny. Jakmile jsou tyto problémy s kvalitou identifikovány, hlásí spolupracovníci CCDS tyto problémy Genome Reference Consortium, které vyšetřuje a provádí nezbytné opravy.
Přístup k datům CCDS
Projekt CCDS je k dispozici na stránce datové sady NCBI CCDS (tady), která poskytuje odkazy ke stažení FTP a rozhraní dotazu k získání informací o sekvencích a umístěních CCDS. Zprávy CCDS lze získat pomocí rozhraní dotazu, které je umístěno v horní části stránky datové sady CCDS. Uživatelé si mohou vybrat různé typy identifikátorů, jako je CCDS ID, ID genu, genový symbol, ID nukleotidu a ID proteinu, aby vyhledali konkrétní informace CCDS.[1] Zprávy CCDS (obrázek 1) jsou prezentovány ve formátu tabulky s odkazy na konkrétní zdroje, jako je například historie, Entrez Gene [10] nebo znovu vyhledejte datovou sadu CCDS. Tabulka identifikátorů sekvencí uvádí informace o přepisu v VEGA, Ensembl a Blikat. Tabulka umístění chromozomů zahrnuje genomové souřadnice pro každý jednotlivý exon specifické kódující sekvence. Tato tabulka také poskytuje odkazy na několik různých prohlížečů genomu, které vám umožňují vizualizovat strukturu kódující oblasti.[1] Přesná nukleotidová sekvence a proteinová sekvence specifické kódující sekvence jsou také zobrazeny v sekci CCDS sekvenční data.
Aktuální aplikace
Datová sada CCDS je nedílnou součástí GENCODE projekt genové anotace[11] a používá se jako standard pro vysoce kvalitní definici exonu v kódování v různých oblastech výzkumu, včetně klinických studií ve velkém měřítku epigenomický studie, exome projekty a design exonového pole.[3] Kvůli konsensuální anotaci CCDS exonů nezávislými anotačními skupinami exome zejména projekty považovaly exony kódující CCDS za spolehlivé cíle pro navazující studie (např varianta s jedním nukleotidem detekce) a tyto exony byly použity jako oblast kódování cíle v komerčně dostupných exome soupravy.[12]
Historie vydání CCDS
Velikost datové sady CCDS se nadále zvyšuje s aktualizacemi anotací výpočetního genomu, které integrují nové datové sady odeslané do mezinárodní databáze nukleotidových sekvencí. (INSDC ) a na probíhajících kurátorských činnostech, které doplňují nebo vylepšují tuto anotaci. Tabulka 2 shrnuje klíčové statistiky pro každé sestavení CCDS kde Veřejná ID CCDS jsou všechny ty, které nebyly v době aktuálního data vydání zkontrolovány nebo čekají na aktualizaci nebo stažení.
Uvolnění | Druh | Název sestavy | Počet veřejných CCDS ID | Počet genových ID | Aktuální datum vydání |
---|---|---|---|---|---|
1 | Homo sapiens | NCBI35 | 13,740 | 12,950 | 14. března 2007 |
2 | Mus musculus | MGSCv36 | 13,218 | 13,012 | 28. listopadu 2007 |
3 | Homo sapiens | NCBI36 | 17,494 | 15,805 | 1. května 2008 |
4 | Mus musculus | MGSCv37 | 17, 082 | 16,888 | 24. ledna 2011 |
5 | Homo sapiens | NCBI36 | 19,393 | 17,053 | 2. září 2009 |
6 | Homo sapiens | GRCh37 | 22,912 | 18,174 | 20. dubna 2011 |
7 | Mus musculus | MGSCv37 | 21,874 | 19,507 | 14. srpna 2012 |
8 | Homo sapiens | GRCh37.p2 | 25,354 | 18,407 | 6. září 2011 |
9 | Homo sapiens | GRCh37.p5 | 26,254 | 18,474 | 25. října 2012 |
10 | Mus musculus | GRCm38 | 22,934 | 19,945 | 5. srpna 2013 |
11 | Homo sapiens | GRCh37.p9 | 27,377 | 18,535 | 29.dubna 2013 |
12 | Homo sapiens | GRCh37.p10 | 27,655 | 18,607 | 24. října 2013 |
13 | Mus musculus | GRCm38.p1 | 23,010 | 19,990 | 7. dubna 2014 |
14 | Homo sapiens | GRCh37.p13 | 28,649 | 18,673 | 29. listopadu 2013 |
15 | Homo sapiens | GRCh37.p13 | 28,897 | 18,681 | 7. srpna 2014 |
16 | Mus musculus | GRCm38.p2 | 23,835 | 20,079 | 10. září 2014 |
17 | Homo sapiens | GRCh38 | 30,461 | 18,800 | 10. září 2014 |
18 | Homo sapiens | GRCh38.p2 | 31,371 | 18,826 | 12. května 2015 |
19 | Mus musculus | GRCm38.p3 | 24,834 | 20,215 | 30. července 2015 |
20 | Homo sapiens | GRCh38.p7 | 32,524 | 18,892 | 8. září 2016 |
21 | Mus musculus | GRCm38.p4 | 25,757 | 20,354 | 8. prosince 2016 |
Kompletní soubor statistik vydání lze nalézt na oficiálních webových stránkách CCDS na jejich Zprávy a statistiky strana.
Budoucí prospekty
Dlouhodobé cíle zahrnují přidání atributů, které označují, kde je stejná anotace přepisu (včetně UTR ) a k označení variant sestřihu s různými UTR které mají stejné ID CCDS. Očekává se také, že jakmile budou k dispozici úplnější a vysoce kvalitní údaje o sekvenci genomu pro jiné organismy, mohou být reprezentace CCDS v anotacích od těchto organismů.
Sada CCDS bude úplnější, protože nezávislé skupiny kurátorů se dohodnou na případech, kdy se původně liší, protože dojde k další experimentální validaci slabě podporovaných genů a jak se budou metody anotací dále zlepšovat. Komunikace mezi spolupracujícími skupinami CCDS probíhá a vyřeší rozdíly a určí upřesnění mezi cykly aktualizace CCDS. Očekává se, že lidské aktualizace budou probíhat zhruba každých 6 měsíců a myši budou vydávány každý rok.[3]
Viz také
Reference
- ^ A b C d E Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, Searle S, Farrell CM, Loveland JE, Ruef BJ, Hart E, Suner MM, Landrum MJ, Aken B, Ayling S, Baertsch R, Fernandez- Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL, Mudge J, Murphy MR , Murphy T, Rajan J, Rajput B, Riddick LD, Snow C, Steward C, Webb D, Weber JA, Wilming L, Wu W, Birney E, Haussler D, Hubbard T, Ostell J, Durbin R, Lipman D (2009 ). „Projekt konsensuální kódující sekvence (CCDS): Identifikace společné sady genů kódujících proteiny pro lidské a myší genomy“. Genome Res. 19 (7): 1316–23. doi:10.1101 / gr.080531.108. PMC 2704439. PMID 19498102.
- ^ A b C d E F G h Harte, RA; Farrell, CM; Loveland, JE; Suner, MM; Wilming, L; Aken, B; Barrell, D; Frankish, A; Wallin, C; Searle, S; Diekhans, M; Harrow, J; Pruitt, KD (2012). „Sledování a koordinace mezinárodního kurátorského úsilí pro projekt CCDS“. Databáze. 2012: bas008. doi:10.1093 / databáze / bas008. PMC 3308164. PMID 22434842.
- ^ A b C d E F Farrell, CM; O'Leary, NA; Harte, RA; Loveland, JE; Wilming, LG; Wallin, C; Diehans, M; Barrell, D; Searle, SM; Aken, B; Hiatt, SM; Frankish, A; Suner, MM; Rajput, B; Steward, CA; Brown, GR; Bennet, R; Murphy, M; Wu, W; Kay, MP; Hart, J; Rajan, J; Weber, J; Sníh, C; Riddick, LD; Hunt, T; Webb, D; Thomas, M; Tamez, P; Rangwala, SH; McGarvey, KM; Pujar, S; Shkeda, A; Mudge, JM; Gonzale, JM; Gilbert, JG; Trevaion, SJ; Baetsch, R; Harrow, JL; Hubbard, T; Ostell, JM; Haussler, D; Pruitt, KD (2014). „Aktuální stav a nové funkce databáze Consensus Coding Sequence“. Nucleic Acids Res. 42 (D1): D865 – D872. doi:10.1093 / nar / gkt1059. PMC 3965069. PMID 24217909.
- ^ A b Alberts, B; Johnson, A; Lewis, J; Raff, M; Roberts, K; Walter, P (2002). Molekulární biologie buňky 5. vydání. New York: Garland Science.
- ^ A b C Kozak, M (2002). „Posunutí mezí skenovacího mechanismu pro zahájení překladu“. Gen. 299 (1–2): 1–34. doi:10.1016 / S0378-1119 (02) 01056-9. PMC 7126118. PMID 12459250.
- ^ Ingolia, NT; Brar, GA; Rouskin, S; McGeachy, AM; Weissman, JS (2014). „Anotace v celém genomu a kvantifikace překladu pomocí profilování Ribosome“. Curr. Protoc. Mol. Biol. Kapitola 4: Jednotka – 4.18. doi:10.1002 / 0471142727.mb0418s103. ISBN 9780471142720. PMC 3775365. PMID 23821443.
- ^ A b Calvo, SE; Pagliarni, DJ; Mootha, VK (2009). „Upstream otevřené čtecí rámce způsobují rozsáhlou redukci exprese proteinů a jsou polymorfní mezi lidmi“ (PDF). Proc. Natl. Acad. Sci. USA. 106 (18): 7507–12. Bibcode:2009PNAS..106,7507C. doi:10.1073 / pnas.0810916106. PMC 2669787. PMID 19372376.
- ^ Silva, AL; Pereira, FJC; Morgado, A; Kong, J; Martins, R; Faustino, P; Liebhaber, SA; Romao, L (2006). „Kanonický nezmyslem zprostředkovaný rozpad mRNA závislý na UPF1 je inhibován v transkriptech nesoucích krátký otevřený čtecí rámec nezávislý na kontextu sekvence“. RNA. 12 (12): 2160–70. doi:10.1261 / rna.201406. PMC 1664719. PMID 17077274.
- ^ Prakash, Tulika; Sharma, Vineet K .; Adati, Naoki; Ozawa, Ritsuko; Kumar, Naveen; Nishida, Yuichiro; Fujikake, Takayoshi; Takeda, Tadayuki; Taylor, Todd D .; Michalak, Pawel (12. října 2010). „Exprese spojených genů: Další mechanismus regulace genů u eukaryot“. PLOS ONE. 5 (10): e13284. Bibcode:2010PLoSO ... 513284P. doi:10.1371 / journal.pone.0013284. PMC 2953495. PMID 20967262.
- ^ Maglott, D .; Ostell, J .; Pruitt, K. D .; Tatusova, T. (28. listopadu 2010). „Entrez Gene: informace zaměřené na geny v NCBI“. Nucleic Acids Res. 39 (Databáze): D52 – D57. doi:10.1093 / nar / gkq1237. PMC 3013746. PMID 21115458.
- ^ Harrow, J .; Frankish, A .; Gonzalez, J. M .; Tapanari, E .; Diekhans, M .; Kokocinski, F .; Aken, B.L .; Barrell, D .; Zadissa, A .; Searle, S .; Barnes, I .; Bignell, A .; Boychenko, V .; Hunt, T .; Kay, M .; Mukherjee, G .; Rajan, J .; Despacio-Reyes, G .; Saunders, G .; Steward, C .; Harte, R .; Lin, M .; Howald, C .; Tanzer, A .; Derrien, T .; Chrast, J .; Walters, N .; Balasubramanian, S .; Pei, B .; Tress, M .; Rodriguez, J. M .; Ezkurdia, I .; van Baren, J .; Brent, M .; Haussler, D .; Kellis, M .; Valencia, A .; Reymond, A .; Gerstein, M .; Guigo, R .; Hubbard, T. J. (5. září 2012). „GENCODE: anotace referenčního lidského genomu pro projekt ENCODE“. Genome Res. 22 (9): 1760–1774. doi:10,1101 / gr.135350.111. PMC 3431492. PMID 22955987.
- ^ Parla, Jennifer S; Iossifov, Ivan; Grabill, Ian; Spector, Mona S; Kramer, Melissa; McCombie, W Richard (2011). „Srovnávací analýza zachycení exomu“. Genome Biol. 12 (9): R97. doi:10.1186 / gb-2011-12-9-r97. PMC 3308060. PMID 21958622.