Imputace (genetika) - Imputation (genetics)
Imputace v genetika Odkazuje na statistická inference nepozorovaně genotypy.[1] Toho je dosaženo použitím známých haplotypy v populaci, například z HapMap nebo Projekt 1000 genomů u lidí, což umožňuje testovat asociaci mezi zájmovým znakem (např. onemocněním) a experimentálně netypovanými genetickými variantami, jejichž genotypy však byly statisticky odvozeny („přičteny“).[2] Genotypová imputace se obvykle provádí dne SNP, nejběžnější druh genetické variace.
Genotypová imputace tedy nesmírně pomáhá při zúžení umístění pravděpodobně kauzálních variant v genomové asociační studie, protože zvyšuje hustotu SNP (velikost genomu zůstává konstantní, ale zvyšuje se počet genetických variant), čímž snižuje vzdálenost mezi dvěma sousedními SNP.
Kontext
v genetická epidemiologie a kvantitativní genetika, výzkumníci se zaměřují na identifikaci genomická místa kde je variace mezi jednotlivci spojena s variací v rysy zájmu mezi jednotlivci. Takové studie proto vyžadují přístup ke genetickému složení souboru jednotlivců. Sekvenování celý genom každého jednotlivce ve studii je často příliš nákladný, lze tedy měřit pouze podmnožinu genomu. To často znamená zaprvé pouze uvažovat jedno-nukleotidové polymorfismy (SNP) a zanedbávání varianty počtu kopií a za druhé, pouze měření SNP, o nichž je známo, že jsou dostatečně variabilní v populaci, takže je pravděpodobné, že budou variabilní také v souboru uvažovaných jedinců. Nejinformativnější podmnožina SNP je vybrána na základě distribuce společného genetická variace podél genomu, například jak je produkováno HapMap nebo Projekt 1000 genomů u lidí. Tyto SNP se poté používají k sestavení a mikropole, což umožňuje genotypizaci každého jednotlivce ve studii na všech těchto SNP současně.
Motivace
Pole pro genotypizaci používaná pro asociační studie v celém genomu (GWAS) jsou založena na značení SNP, a proto přímo genotypují všechny variace v genomu. Imputace genotypů referenčnímu panelu, který byl genotypován pro větší počet variant, zvyšuje pokrytí genomové variace nad původní genotypy. V důsledku toho lze posoudit účinek více SNP než těch na původní mikropole. Důležité je, že imputace usnadnila metaanalýzu datových sad, které byly genotypovány na různých polích, zvýšením překrývání variant dostupných pro analýzu mezi poli.
Nástroje
Existuje několik softwarových balíčků pro imputaci genotypů z řady genotypů do referenčních panelů, například haplotypy projektu 1000 Genomes Project. Mezi tyto nástroje patří MaCH[3] Minimac, IMPUTE2[4] a Beagle.[5] Každý nástroj poskytuje konkrétní výhody a nevýhody, pokud jde o rychlost a přesnost.[6] Další nástroje pro fázování, jako je SHAPEIT2[7] umožňuje prefázování vstupních haplotypů pro lepší přesnost imputace a výpočetní výkon.
V časném použití imputace byly jako referenční panel použity haplotypy z populací HapMap, ale to bylo následováno dostupností haplotypů z projektu 1000 genomů[8] jako referenční panely, s více vzorky, napříč rozmanitějšími populacemi a s většími genetický marker hustota. V polovině roku 2014 jsou data sekvence celého genomu veřejně dostupná na webových stránkách projektu 1000 genomů[9] pro 2535 jedinců z 26 různých populací po celém světě.
Statistické modely
Navrhování přesných statistických modelů pro imputaci genotypu velmi souvisí s problémem odhad haplotypu („fázování“) a je aktivní oblastí výzkumu.[10]
Viz také
Reference
- ^ Scheet, Paul; Stephens, Matthew (2006). „Rychlý a flexibilní statistický model pro rozsáhlá populační genotypová data: aplikace pro odvození chybějících genotypů a haplotypické fáze“. American Journal of Human Genetics. 78 (4): 629–644. doi:10.1086/502802. PMC 1424677. PMID 16532393.
- ^ Marchini, J .; Howie, B. (2010). „Imputace genotypu pro asociační studie v celém genomu“. Genetika hodnocení přírody. 11 (7): 499–511. doi:10.1038 / nrg2796. PMID 20517342.
- ^ Li, Y; Willer, CJ; Ding, J; Scheet, P; Abecasis, GR (prosinec 2010). "MaCH: použití dat sekvence a genotypu k odhadu haplotypů a nepozorovaných genotypů". Genetická epidemiologie. 34 (8): 816–34. doi:10.1002 / gepi.20533. PMC 3175618. PMID 21058334.
- ^ Howie, B; Fuchsberger, C; Stephens, M; Marchini, J; Abecasis, GR (22. července 2012). „Rychlá a přesná imputace genotypu ve studiích asociace v celém genomu prostřednictvím předběžného fázování“. Genetika přírody. 44 (8): 955–9. doi:10,1038 / ng.2354. PMC 3696580. PMID 22820512.
- ^ Browning, Brian L .; Browning, Sharon R. (2009). „Jednotný přístup k imputaci genotypu a odvození fáze haplotypu pro velké datové sady tria a nepříbuzných jedinců“. American Journal of Human Genetics. 84 (2): 210–223. doi:10.1016 / j.ajhg.2009.01.005. PMC 2668004. PMID 19200528.
- ^ Howie, Bryan; Fuchsberger, Christian; Stephens, Matthew; Marchini, Jonathan; Abecasis, Gonçalo R (22. července 2012). „Rychlá a přesná imputace genotypu ve studiích asociace v celém genomu prostřednictvím předběžného fázování“. Genetika přírody. 44 (8): 955–959. doi:10,1038 / ng.2354. PMC 3696580. PMID 22820512.
- ^ Delaneau, Olivier; Marchini, Jonathan; Zagury, Jean-François (4. prosince 2011). "Metoda fázování lineární složitosti pro tisíce genomů". Přírodní metody. 9 (2): 179–181. doi:10.1038 / nmeth.1785. PMID 22138821.
- ^ Durbin, Richard M .; Altshuler, David L .; Durbin, Richard M .; Abecasis, Gonçalo R .; Bentley, David R .; Chakravarti, Aravinda; Clark, Andrew G .; Collins, Francis S. (28. října 2010). „Mapa variace lidského genomu od sekvenování v populační škále“. Příroda. 467 (7319): 1061–1073. doi:10.1038 / nature09534. PMC 3042601. PMID 20981092.
- ^ „1000 genomů - podrobný katalog lidských genetických variací“. Citováno 17. července 2014.
- ^ Howie, Bryan; Donnelly, Peter; Marchini, Jonathan (2009). „Flexibilní a přesná metoda imputace genotypu pro další generaci studií asociace na celém genomu“. Genetika PLoS. 5 (6): e1000529. doi:10.1371 / journal.pgen.1000529. PMC 2689936. PMID 19543373.