ANNOVAR - ANNOVAR

Annovar broad overview diagnosis application.svg

ANNOVAR (ANNOtát VARiace) je bioinformatický softwarový nástroj pro interpretaci a stanovení priorit variant jednotlivých nukleotidů (SNV), vložení, vypuštění, a varianty počtu kopií (CNV) daného genomu.[1] Má schopnost komentovat lidské genomy hg18, hg19, hg38 a modelovat genomy organismů, jako jsou: myš (Mus musculus ), zebrafish (Danio rerio ), ovocný let (Drosophila melanogaster ), škrkavka (Caenorhabditis elegans ), droždí (Saccharomyces cerevisiae ) a mnoho dalších.[2] Anotace lze použít ke stanovení funkčních důsledků mutací na geny a organismy, k odvození cytogenetických pásů, k hlášení skóre funkční důležitosti a / nebo k nalezení variant v konzervovaných oblastech.[2] ANNOVAR spolu s efektem SNP (SnpEFF ) a Variant Effect Predictor (VEP) jsou tři z nejčastěji používaných variantních anotačních nástrojů.

Pozadí

Náklady na vysokou propustnost Sekvenování DNA drasticky snížila z přibližně 100 milionů USD / lidský genom v roce 2001 na přibližně 1000 USD / lidský genom v roce 2017.[3] Kvůli tomuto zvýšení dostupnosti se ve výzkumu a klinických podmínkách stále více používá sekvenování DNA s vysokou propustností.[4][5] Některé běžné oblasti, které značně využívají vysoce výkonné sekvenování DNA, jsou: Sekvenování celé Exome, Sekvenování celého genomu (WGS), a genomové asociační studie (GWAS).[6][7]

K dispozici je rostoucí počet nástrojů, které se snaží komplexně spravovat, analyzovat a interpretovat obrovské množství dat generovaných z vysoce výkonného sekvenování DNA. Je nutné, aby nástroje byly dostatečně účinné a robustní na to, aby analyzovaly velké množství variant (více než 3 miliony v lidském genomu), přestože jsou dostatečně citlivé na to, aby identifikovaly vzácné a klinicky relevantní varianty, které jsou pravděpodobně škodlivé / škodlivé.[8] ANNOVAR vyvinul Dr. Kai Wang v roce 2010 v Centru aplikované genomiky na Pensylvánské univerzitě.[1] Jedná se o typ alternativního anotačního nástroje, který kompiluje škodlivé predikční skóre genetických variant z programů jako PolyPhen, ClinVar a CADD a anotuje SNV, inzerce, delece a CNV poskytnutého genomu. ANNOVAR je jedním z prvních vytvořených efektivních, konfigurovatelných, rozšiřitelných a kompatibilních anotačních nástrojů pro různé platformy.

Pokud jde o větší pracovní tok bioinformatiky, ANNOVAR zapadá těsně před konec, poté, co se ze sekvenčního souboru (BAM), známého také jako volání variant, předpovídají čtení sekvenování DNA mezi mapovanými, zarovnanými a variantami. Tento proces vyprodukuje výslednici VCF soubor, textový soubor oddělený tabulátory ve struktuře podobné tabulkám, obsahující genetické varianty jako řádky. Tento soubor lze poté použít jako vstup do softwarového programu ANNOVAR pro proces anotace variant, při kterém se načtou interpretace variant identifikovaných z předcházejícího kanálu bioinformatiky.

Druhy funkční anotace genetických variant

Genová anotace

Tento přístup identifikuje, zda vstupní varianty způsobují změny kódování proteinu a aminokyseliny, které jsou ovlivněny mutacemi.[9] Vstupní soubor může být složen z exonů, intronů, intergenních oblastí, míst akceptoru / donoru sestřihu a 5 '/ 3' nepřekládaných oblastí. Důraz je kladen na prozkoumání vztahu mezi nesynonymními mutacemi (SNP, indels nebo CNV) a jejich funkčním dopadem na známé geny.[10] Zejména anotace založená na genech zvýrazní přesnou změnu aminokyseliny, pokud je mutace v exonové oblasti a předpokládaný účinek na funkci známého genu. Tento přístup je užitečný pro identifikaci variant ve známých genech z dat sekvenování Whole Exome.

Anotace podle regionu

Tento přístup identifikuje škodlivé varianty ve specifických genomových oblastech na základě genomových prvků kolem genu.[11] Některé kategorie regionálních anotací budou brány v úvahu:

1) Je varianta ve známé konzervované genomové oblasti?

Mutace se vyskytují během mitóza a redukční dělení buněk. Pokud neexistuje žádný selektivní tlak na specifické nukleotidové sekvence, pak by všechny oblasti genomu byly mutovány, jsou stejné rychlosti. Genomické oblasti, které jsou vysoce konzervované, naznačují genomové sekvence, které jsou nezbytné pro přežití organismu a / nebo reprodukční úspěch. Pokud tedy varianta naruší vysoce konzervovanou oblast, bude pravděpodobně velmi škodlivá.[12]

2) Je varianta předpovídána transkripční faktor vazebné stránky?

DNA je přepsána do messenger RNA (mRNA) podle RNA polymeráza II. Tento proces lze modulovat transkripční faktory které mohou zesílit nebo inhibovat vazbu RNApol II. Pokud varianta naruší vazebné místo transkripčního faktoru, pak by mohla být změněna transkripce genu, což by způsobilo změny v úrovni genové exprese a / nebo množství produkce proteinu. Tyto změny by mohly způsobit fenotypové variace.

3) Je předpokládaná varianta miRNA cílová stránka?

MicroRNA (miRNA) je typ RNA, který se komplementárně váže na cílenou sekvenci mRNA, aby potlačil nebo umlčel translaci mRNA. Pokud varianta naruší cílové umístění miRNA, mohla miRNA změnit vazebnou afinitu k odpovídajícímu genovému transkriptu, a tak změnit úroveň exprese mRNA transkriptu. To by mohlo dále ovlivnit úroveň produkce bílkovin, což by mohlo způsobit fenotypové variace.

4) Předpokládá se, že varianta přeruší stabilní sekundární strukturu RNA?

RNA může fungovat na úrovni RNA jako nekódující RNA nebo být přeloženy do proteinů pro následné procesy. Sekundární struktury RNA jsou nesmírně důležité při určování správného poločasu a funkce těchto RNA. Jsou dva druhy RNA s přísně regulovanými sekundárními strukturami ribozomální RNA (rRNA) a přenosová RNA (tRNA) které jsou nezbytné při translaci mRNA na protein. Pokud varianta naruší stabilitu sekundární struktury RNA, může být zkrácen poločas RNA, čímž se sníží koncentrace RNA v buňce.

Nekódující oblasti zahrnují 99% lidského genomu[13] a anotace na základě regionu je extrémně užitečná při identifikaci variant v těchto oblastech. Tento přístup lze použít na datech WGS.

Anotace založená na filtru

Tento přístup identifikuje varianty, které jsou dokumentovány ve specifických databázích.[14] Varianty lze získat z dbSNP, Projekt 1000 genomů, nebo seznam dodaný uživatelem. Další informace lze získat z četnosti variant z výše uvedených databází nebo z predikovaných škodlivých skóre vytvořených PolyPhen, CADD, ClinVar nebo mnoha dalšími.[1] Čím častěji se varianta objeví ve veřejné databázi, tím bude pravděpodobně škodlivější. Výzkumník může zkombinovat výsledky různých škodlivých nástrojů pro predikci skóre, aby provedl přesnější volání varianty.

Dohromady tyto přístupy se navzájem doplňují a filtrují přes 4 miliony variant v lidském genomu. Běžné varianty s nízkým škodlivým skóre jsou odstraněny, aby se odhalily vzácné, vysoce škodlivé varianty skóre, které by mohly být příčinou vrozených onemocnění.

Technické informace

ANNOVAR je nástroj příkazového řádku napsaný v Perl programovací jazyk a lze jej spustit na libovolném operační systém , který má nainstalovaný tlumočník Perl.[1] Pokud se používá pro nekomerční účely, je k dispozici zdarma jako open-source balíček, který lze stáhnout prostřednictvím webových stránek ANNOVAR. ANNOVAR dokáže zpracovat většinu sekvenování nové generace data, která byla spuštěna a variantní volání software.

Přehled hlavních skriptů v programu
SkriptÚčelPopisVstupVýstupPožadavky
annotate_variation.plvariantní anotátorZákladní skript, který funkčně anotuje genetické varianty prostřednictvím (1) genové, (2) regionální a / nebo (3) anotace založené na filtru..vinput.vinputZdroje dat jsou staženy pro anotaci, např. hg38, UCSC, projekt 1000 genomů.
convert2annovar.plpřevaděč souborůPřevádí různé formáty souborů do vlastního formátu vstupního souboru ANNOVAR.Viz část „Převod do formátu vstupního souboru ANNOVAR“..vinput
table_annovar.plautomatizovaný variantní anotátorObálka kolem annotate_variation.pl který může mít formát VCF spolu s formátem ANNOVAR, provádí anotace a vydává soubor kompatibilní s Excelem. Ideální pro začátečníky..avinput, CSV, TSV, VCFCSV, TSV, VCF, TXTZdroje dat jsou staženy pro anotaci, např. hg38, UCSC, projekt 1000 genomů.
varianty_redukce.plvarianta reduktorProvede postupnou redukci variant u velké sady vstupních variant a zúžení na podmnožinu funkčně důležitých variant. Postupy filtrování zahrnují: Aplikuje postupný postup filtrování k identifikaci podmnožin variant, které pravděpodobně souvisejí s onemocněním.[2] Tyto postupy filtrování zahrnují:[2]
  • identifikace nesynonymních a sestřihových variant
  • odstranění variant v segmentových duplikačních oblastech
  • identifikace konzervovaných genomových oblastí
  • odstranění variant z 1000 Genomes Project, ESP6500 a dbSNP
.vinput.vinputStahují se zdroje dat anotací založené na genech a různé zdroje dat anotací založené na filtru.

Formáty souborů

Software ANNOVAR přijímá textové vstupní soubory, včetně VCF (Variant Call Format), zlatý standard pro popis genetických lokusů.

Hlavní skript anotace programu, annotate_variation.pl vyžaduje vlastní formát vstupního souboru, vstupní formát ANNOVAR (.avinput). Běžné typy souborů lze převést do vstupního formátu ANNOVAR pro anotaci pomocí poskytnutého skriptu (viz níže). Jedná se o jednoduchý textový soubor, kde každý řádek v souboru odpovídá variantě a v každém řádku jsou sloupce oddělené tabulátory představující základní pole genomických souřadnic (chromozom, počáteční poloha, koncová poloha, referenční nukleotidy a pozorované nukleotidy), následované volitelné sloupce[2]

Vstup do souboru ANNOVAR obsahuje následující základní pole:

  • Chr
  • Start
  • Konec
  • Čj
  • Alt

Základní použití „ihned po vybalení“:

Populární funkcí nástroje ANNOVAR je použití table_annovar.pl skript, který zjednodušuje pracovní postup do jediného volání příkazového řádku, vzhledem k tomu, že zdroje dat pro anotaci již byly staženy. Převod souboru z Soubor VCF se zpracovává v rámci volání funkce, následuje anotace a výstup do souboru kompatibilního s Excelem. Skript přebírá řadu parametrů pro anotaci a vydává soubor VCF s anotacemi jako páry klíč – hodnota uvnitř INFO sloupec souboru VCF pro každou genetickou variantu, např. "genomic_function = exonic".

Konverze do formátu vstupního souboru ANNOVAR

Převod souboru do vstupního formátu ANNOVAR je možný pomocí poskytnutého převáděcího skriptu formátu souboru convert2annovar.pl. Program přijímá běžné formáty souborů odesílané upstreamem variantní volání nástroje. Následné skripty funkční anotace annotate_variation.pl použijte vstupní soubor ANNOVAR. Formáty souborů, které přijímá convert2annovar.pl zahrnout následující:[2]

Generování vstupních souborů na základě konkrétních variant, přepisů nebo genomových oblastí:

Při vyšetřování kandidátských lokusů, které jsou spojeny s chorobami, je použití výše uvedené varianty volajících formátů souborů jako vstupu do ANNOVAR standardním pracovním tokem pro funkční anotaci genetických variant vygenerovaných z předcházejícího bioinformatického kanálu. ANNOVAR lze také použít v jiných scénářích, jako je výslech souboru genetických variant zájmu na základě seznamu dbSNP identifikátory i varianty v rámci specifických genomových nebo exomických oblastí.[2]

V případě identifikátorů dbSNP poskytnutí do convert2annovar.pl skriptovat seznam identifikátorů (např. rs41534544, rs4308095, rs12345678) do textového souboru spolu s referenční genom jako parametr, bude ANNOVAR odesílat vstupní soubor ANNOVAR s poli genomových souřadnic pro ty varianty, které lze poté použít pro funkční anotaci.[2]

V případě genomových oblastí lze poskytnout sledovaný genomický rozsah (např. Chr1: 2000001-2000003) spolu s požadovaným referenčním genomem a ANNOVAR vygeneruje vstupní soubor ANNOVAR všech genetických lokusů pokrývajících tento rozsah. Kromě toho lze také zadat velikost inzerce a delece, ve které skript vybere všechny genetické lokusy, kde je nalezena specifická velikost zájmu nebo vložení.[2]

A konečně, při pohledu na varianty v konkrétních regionech exonů mohou uživatelé generovat vstupní soubory ANNOVAR pro všechny možné varianty v exonech (včetně variant sestřihu), kdyžconvert2annovar.pl skriptu je poskytnuta RNA přepis identifikátor (např.MM_022162) založený na standardní nomenklatuře HGVS (Human Genome Variation Society).[2]

Výstupní soubor

Možné výstupní soubory jsou anotovaný soubor .avinput, CSV, TSV nebo VCF. V závislosti na použité anotační strategii (viz obrázek níže) se vstupní a výstupní soubory budou lišit. Je možné konfigurovat typy výstupních souborů dané konkrétním vstupním souborem poskytnutím příslušného parametru programu.

Například pro table_annovar.pl Pokud je vstupním souborem VCF, bude výstupem také soubor VCF. Pokud je vstupní soubor typu vstupního formátu ANNOVAR, bude ve výchozím nastavení výstup TSV, s možností výstupu do CSV, pokud -csvout je zadán parametr. Výběrem formátu CSV nebo TSV jako typu výstupního souboru může uživatel otevřít soubory a zobrazit v nich anotace Vynikat nebo jinou tabulkovou softwarovou aplikaci. Toto je oblíbená funkce mezi uživateli.

Výstupní soubor bude obsahovat všechna data z původního vstupního souboru s dalšími sloupci pro požadované anotace. Například při anotování variant s charakteristikami, jako je (1) genomová funkce a (2) funkční role kódovací varianty, bude výstupní soubor obsahovat všechny sloupce ze vstupního souboru a poté další sloupce „genomic_function“ (např. S ​​hodnotami „exonic“ nebo „intronic“) a „coding_variant_function“ (např. s hodnotami „synonymní SNV“ nebo „nesynonymní SNV“).

Klíčové pracovní postupy programu ANNOVAR

Účinnost systému

Ve srovnání s moderním stolním počítačem (procesor 3GHz Intel Xeon, paměť 8 GB) vyžaduje ANNOVAR pro 4,7 milionu variant ~ 4 minuty provedení genové funkční anotace nebo ~ 15 minut provedení postupné „redukce variant“. Říká se, že je to praktické pro provedení variantní anotace a prioritní varianty na stovkách lidských genomů za den.[2]

ANNOVAR lze zrychlit pomocí -vlákno argument, který umožňuje vícevláknové aby mohly být vstupní soubory zpracovávány paralelně.

Zdroje dat

Chcete-li použít ANNOVAR pro funkční anotaci variant, lze soubory dat anotací stáhnout pomocí annotate_variation.pl skript, který je uloží na místní disk.[1] Pro tři hlavní typy anotací (genově, regionálně a filtrovaně) se používají různé zdroje dat anotací.

Zde jsou některé zdroje dat pro každý typ anotace:

Genová anotace

[9]

Anotace podle regionu

  • ZAKÓDOVAT
  • Zakázkové databáze vyhovující GFF3 (Generic Feature Format verze 3)

[11]

Anotace založená na filtru

Projekt 1000 genomůLRTClinVar
dbSNPMutationTasterCADD
avSNPGERP ++DANN
dbNSFPExACVESMÍRNÝ
PROSÍTESP (Exome Sequencing Project)ICGC
PolyPhen 2frekvence alel gnomADNCI60
PhyloPDokončete frekvenci alely genomiky

Vzhledem k velkému počtu datových zdrojů pro anotaci založenou na filtrech uvádíme několik příkladů podmnožin datových sad, které se mají použít pro několik nejběžnějších případů použití.[14]

  1. Pro četnost variant v celý exome data:[14]
    1. ExAC: s frekvencí alel pro všechny etnické skupiny
    2. NHLBI-ESP: od 6500 exomů použijte tři skupiny populace
    3. frekvence alel gnomAD: s frekvencemi alel pro více populací
  2. Pro varianty specifické pro onemocnění:[14]
    1. ClinVar: s jednotlivými sloupci pro každé pole ClinVar pro každou variantu
    2. COSMIC: somatické mutace z rakoviny a frekvence výskytu u každého podtypu rakoviny
    3. ICGC: mutace z International Cancer Genome Consortium
    4. NCI-60: panel sekvencí exomu lidských nádorových buněk, alela, frekvence

[14]

Příklad aplikace

Široký přehled aplikace přípravku ANNOVAR pro identifikaci mutací pro vzácná onemocnění

Použití přípravku ANNOVAR pro stanovení priorit genetických variant k identifikaci mutací ve vzácném genetickém onemocnění

ANNOVAR je jedním z běžných anotačních nástrojů pro identifikaci kandidátních a kauzálních mutací a genů pro vzácná genetická onemocnění.

Pomocí kombinace anotace založené na genu a filtru s následnou redukcí variant na základě hodnot anotací variant lze identifikovat kauzální gen u vzácné recesivní Mendelovy choroby zvané Millerův syndrom.[1]

To bude zahrnovat syntézu genomové datové sady ~ 4,2 milionu variant jednotlivých nukleotidů (SNV) a ~ 0,5 milionu vložení a odstranění (indels ).[1]. Dvě známé kauzální mutace pro Millerův syndrom (G152R a G202A v EU) DHODH gen)[1]

Kroky při identifikaci kauzálních variant onemocnění pomocí přípravku ANNOVAR:[1]

  1. Genová anotace k identifikaci exonických / sestřihových variant kombinace SNV a indels (~ 4,7 milionu variant), kde je identifikováno celkem 24 617 exonických variant.[1]
  2. Vzhledem k tomu, že Millerův syndrom je vzácná Mendelianova choroba, jsou zajímavé pouze varianty měnící proteiny, které tvoří 11 166.[1] Z toho je identifikováno 4860 variant, které spadají do vysoce konzervovaných genomových oblastí[1]
  3. Jako veřejné databáze, jako je dbSNP a Projekt 1000 genomů archivovat dříve hlášené varianty, které jsou často běžné, je méně pravděpodobné, že budou obsahovat kauzální varianty Millerova syndromu, které jsou vzácné.[1] Proto jsou varianty nalezené v těchto zdrojích dat odfiltrovány a zůstává 413 variant.
  4. Poté se vyhodnotí geny, zda existuje více variant ve stejném genu jako složené heterozygoty a zbývá 23 genů.[1]
  5. Nakonec jsou odstraněny „postradatelné“ geny, ty, které mají vysokou frekvenci nesmyslové mutace (u více než 1% subjektů v EU) Projekt 1000 genomů ) které jsou náchylné k sekvenování a chyby zarovnání v platformě pro sekvenování krátkého čtení.[1] Tyto geny jsou považovány za méně pravděpodobné, že budou kauzální Mendelianova nemoc. Výsledkem jsou tři odfiltrované geny a zbývá 20 kandidátských genů, včetně kauzálního genu DHODH[1]

Omezení ANNOVAR

Dvě omezení ANNOVAR se týkají detekce běžných onemocnění a větších strukturálních variantních anotací. Tyto problémy jsou přítomny ve všech současných variantních anotačních nástrojích.

Nejběžnější onemocnění, jako je cukrovka a Alzheimerova choroba, mají v genomu několik variant, které jsou v populaci běžné.[15][16] Očekává se, že tyto varianty budou mít nízké individuální škodlivé výsledky a způsobí onemocnění hromaděním více variant. ANNOVAR má však výchozí schémata „snižování variant“, která poskytují malý seznam vzácných a vysoce předvídaných škodlivých variant.[17] Tato výchozí nastavení lze optimalizovat, aby se na výstupních datech zobrazovaly další varianty s klesajícími předpokládanými škodlivými výsledky.[2] Přípravek ANNOVAR se primárně používá k identifikaci variant zahrnujících vzácná onemocnění, u nichž se očekává, že kauzální mutace bude vzácná a vysoce škodlivá.

Větší konstrukční varianty (SV) Bylo prokázáno, že chromozomální inverze, translokace a komplexní SV způsobují nemoci, jako je hemofilie A a Alzheimerova choroba.[18][19] SV je však často obtížné anotovat, protože je obtížné přiřadit konkrétní škodlivé výsledky velkým mutovaným genomickým oblastem. V současné době může ANNOVAR komentovat pouze geny obsažené v delecích nebo duplikacích nebo malých indelech <50bp. ANNOVAR nemůže odvodit složité SV a translokace[17]

Alternativní varianty anotačních nástrojů

Existují také dva další typy anotačních nástrojů SNP, které jsou podobné ANNOVAR: SNP efekt (SnpEFF ) a Variant Effect Predictor (VEP). Mnoho funkcí mezi ANNOVAR, SnpEFF a VEP je stejné, včetně formátu vstupního a výstupního souboru, anotací regulačních oblastí a anotací známých variant. Hlavní rozdíly však spočívají v tom, že ANNOVAR nemůže anotovat ztrátu předpovědí funkcí, zatímco SnpEFF i VEP ano. ANNOVAR také nemůže anotovat mikroRNA strukturální vazebná místa, zatímco VEP může.[20] Předpovědi umístění strukturní vazby MicroRNA mohou být při odhalení informativní post-transkripční role mutací v patogenezi nemoci.[21] Ztráta funkce mutace jsou změny v genomu, které vedou k úplné dysfunkci genového produktu. Tyto předpovědi by tedy mohly být extrémně informativní, pokud jde o diagnostiku onemocnění, zejména u vzácných monogenních onemocnění.[Citace je zapotřebí ]

Porovnání tří variantních anotačních nástrojů
TřídaVlastnostiVEPAnnovarSnpEff
VšeobecnéDostupnostVolný, uvolnitZdarma (pouze pro akademické použití)Volný, uvolnit
VstupVCFAnoAnoAno
Sekvenční variantyAnoAnoAno
Strukturální variantyAnoAnoAno
VýstupVCFAnoAnoAno
Sady přepisůEnsemblAnoAnoAno
RefSeqAnoAnoAno
Uživatelem vytvořené databázeAnoAnoAno
RozhraníMístní balíčekAnoAnoAno
Webové rozhraní pro okamžitou předpověďAnoNeNe
Typy následkůSpojování předpovědíAno (prostřednictvím pluginů)Ano (přes externí data)Ano (experimentální)
Ztráta predikce funkceAno (prostřednictvím pluginů)NeAno
NekódováníRegulační funkceAnoAnoAno
Podpora více buněčných liniíAnoNeAno
Umístění struktury miRNAAno (prostřednictvím pluginů)NeNe
Známé variantyNahlásit známé variantyAnoAnoAno
Filtrovat podle frekvenceAnoAnoAno
Klinický významAnoAnoAno
Ostatní filtryPřednastavené filtryAnoAnoAno

* Tabulka převzata z McLaren et al. (2016).

Reference

  1. ^ A b C d E F G h i j k l m n Ó str Hakonarson, Hakon; Li, Mingyao; Wang, Kai (01.09.2010). „ANNOVAR: funkční anotace genetických variant z vysoce výkonných sekvenčních dat“. Výzkum nukleových kyselin. 38 (16): e164. doi:10.1093 / nar / gkq603. ISSN  0305-1048. PMC  2938201. PMID  20601685.
  2. ^ A b C d E F G h i j k l „Webová stránka ANNOVAR“. www.openbioinformatics.org. Citováno 2019-02-28.
  3. ^ „Náklady na sekvenování DNA: data“. Národní institut pro výzkum lidského genomu (NHGRI). Citováno 2019-04-04.
  4. ^ Emerson, Ryan O .; Sherwood, Anna M .; Rieder, Mark J .; Guenthoer, Jamie; Williamson, David W .; Carlson, Christopher S .; Drescher, Charles W .; Tewari, Muneesh; Bielas, Jason H. (prosinec 2013). „Vysoce výkonné sekvenování receptorů T buněk odhaluje homogenní repertoár nádorů infiltrujících lymfocytů u rakoviny vaječníků“. The Journal of Pathology. 231 (4): 433–440. doi:10,1002 / cesta. 4260. ISSN  0022-3417. PMC  5012191. PMID  24027095.
  5. ^ Blayney, Jaine K .; Parkes, Eileen; Zheng, Huiru; Taggart, Laura; Browne, Fiona; Haberland, Valeriia; Lightbody, Gaye (2018). „Recenze aplikací vysoce výkonného sekvenování v personalizované medicíně: bariéry a pomocníci budoucího pokroku ve výzkumu a klinické aplikaci“. Briefings in Bioinformatics. doi:10.1093 / bib / bby051. PMID  30084865.
  6. ^ Reference, Genetics Home. „Co je to sekvenování celého exomu a sekvenování celého genomu?“. Genetická domácí reference. Citováno 2019-04-04.
  7. ^ Reference, Genetics Home. „Co jsou to asociační studie na celém genomu?“. Genetická domácí reference. Citováno 2019-04-04.
  8. ^ Konsorcium projektu 1000 genomů (říjen 2015). „Globální reference pro lidské genetické variace“. Příroda. 526 (7571): 68–74. Bibcode:2015Natur.526 ... 68T. doi:10.1038 / příroda15393. ISSN  1476-4687. PMC  4750478. PMID  26432245.
  9. ^ A b „Anotace na základě genu - dokumentace ANNOVAR“. annovar.openbioinformatics.org. Citováno 2019-02-28.
  10. ^ Yang, Hui; Wang, Kai (říjen 2015). „Anotace genomických variant a stanovení priorit s ANNOVAR a WANNOVAR“. Přírodní protokoly. 10 (10): 1556–1566. doi:10.1038 / nprot.2015.105. ISSN  1754-2189. PMC  4718734. PMID  26379229.
  11. ^ A b „Regionální anotace - dokumentace ANNOVAR“. annovar.openbioinformatics.org. Citováno 2019-02-28.
  12. ^ Jordan, I. King; Rogozin, Igor B .; Vlk, Jurij I.; Koonin, Eugene V. (červen 2002). „Esenciální geny jsou více evolučně konzervovány než neesenciální geny v bakteriích“. Výzkum genomu. 12 (6): 962–968. doi:10,1101 / gr. 87702. ISSN  1088-9051. PMC  1383730. PMID  12045149.
  13. ^ Reference, Genetics Home. „Co je nekódující DNA?“. Genetická domácí reference. Citováno 2019-03-01.
  14. ^ A b C d E „Anotace založená na filtru - dokumentace ANNOVAR“. annovar.openbioinformatics.org. Citováno 2019-02-28.
  15. ^ Wu, Yiming; Jing, Runyu; Dong, Yongcheng; Kuang, Qifan; Li, Yan; Huang, Ziyan; Gan, Wei; Xue, Yue; Li, Yizhou (06.03.2017). „Funkční anotace šedesáti pěti rizikových SNP s diabetem typu 2 a jejich aplikace v predikci rizik“. Vědecké zprávy. 7: 43709. Bibcode:2017NatSR ... 743709W. doi:10.1038 / srep43709. ISSN  2045-2322. PMC  5337961. PMID  28262806.
  16. ^ Emahazion, T .; Feuk, L .; Jobs, M .; Sawyer, S.L .; Fredman, D .; St Clair, D .; Prince, J. A .; Brookes, A. J. (červenec 2001). „Asociační studie SNP u Alzheimerovy choroby upozorňují na problémy komplexní analýzy nemocí“. Trendy v genetice. 17 (7): 407–413. doi:10.1016 / S0168-9525 (01) 02342-3. ISSN  0168-9525. PMID  11418222.
  17. ^ A b Yang, Hui; Wang, Kai (říjen 2015). „Anotace genomických variant a stanovení priorit s ANNOVAR a WANNOVAR“. Přírodní protokoly. 10 (10): 1556–1566. doi:10.1038 / nprot.2015.105. ISSN  1754-2189. PMC  4718734. PMID  26379229.
  18. ^ Lakich, Delia; Kazazian, Haig H .; Antonarakis, Stylianos E .; Gitschier, Jane (listopad 1993). „Inverze narušující gen faktoru VIII jsou častou příčinou těžké hemofilie A“. Genetika přírody. 5 (3): 236–241. doi:10.1038 / ng1193-236. ISSN  1061-4036. PMID  8275087.
  19. ^ Lupski, James R. (červen 2015). „Strukturální variační mutageneze lidského genomu: dopad na nemoci a evoluci“. Environmentální a molekulární mutageneze. 56 (5): 419–436. doi:10.1002 / em.21943. ISSN  0893-6692. PMC  4609214. PMID  25892534.
  20. ^ McLaren, William; Gil, Laurent; Hunt, Sarah E .; Riat, Harpreet Singh; Ritchie, Graham R. S .; Thormann, Anja; Flicek, Paul; Cunningham, Fiona (06.06.2016). „Ensemble Variant Effect Predictor“. Genome Biology. 17 (1): 122. doi:10.1186 / s13059-016-0974-4. ISSN  1474-760X. PMC  4893825. PMID  27268795.
  21. ^ Jiang Q, Wang Y, Hao Y, Juan L, Teng M, Zhang X, Li M, Wang G, Liu Y (leden 2009). „miR2Disease: ručně upravená databáze pro deregulaci mikroRNA u lidských onemocnění“. Výzkum nukleových kyselin. 37. 37 (Problém s databází): D98–104. doi:10.1093 / nar / gkn714. PMC  2686559. PMID  18927107.