Odhad haplotypu - Haplotype estimation

v genetika, odhad haplotypu (také známý jako "fázování") se týká procesu statistického odhadu haplotypy z genotyp data. Nejběžnější situace nastává, když jsou genotypy shromažďovány na souboru polymorfních míst od skupiny jednotlivců. Například v lidské genetice genomové asociační studie sbírat genotypy u tisíců jednotlivců na 200 000–5 000 000 SNP pomocí mikročipů. Při analýze těchto datových sad se používají metody odhadu haplotypu, které umožňují imputace genotypu [1][2] alel z referenčních databází, jako je HapMap Project a projekt 1000 genomů.

Genotypy a haplotypy

Genotypy měří neuspořádanou kombinaci alel v každém místě, zatímco haplotypy jsou dvě sekvence alel, které byly zděděny společně od rodičů jednotlivce. Když tam jsou heterozygotní genotypy přítomné v sadě genotypů jednotlivce, budou možné páry haplotypů, které by mohly být základem genotypů. Například když , máme následující haplotypy: AA / TT, AT / TA, TA / AT a TT / AA. Pokud chybí genotypy, zvyšuje se počet možných párů haplotypů.

Metody odhadu haplotypu

Pro odhad haplotypů bylo navrženo mnoho statistických metod. Některé z prvních přístupů používaly jednoduchý multinomický model, ve kterém každý možný haplotyp shodný se vzorkem dostal neznámý parametr frekvence a tyto parametry byly odhadnuty pomocí Algoritmus očekávání - maximalizace. Tyto přístupy dokázaly zpracovat pouze malý počet webů najednou, ačkoli byly později vyvinuty sekvenční verze, konkrétně metoda SNPHAP.

Nejpřesnější a nejpoužívanější metody pro odhad haplotypu využívají nějakou formu skrytý Markovův model (HMM) provést závěr. Po dlouhou dobu FÁZE[3] byla nejpřesnější metoda. FÁZE byla první metodou k využití nápadů koalescenční teorie o společné distribuci haplotypů. Tato metoda používala a Gibbsův odběr vzorků přístup, ve kterém byly haplotypy každého jednotlivce aktualizovány s podmínkou současných odhadů haplotypů ze všech ostatních vzorků. Pro podmíněné distribuce Gibbsova vzorkovače byly použity aproximace distribuce haplotypu podmíněné množinou dalších haplotypů. Fáze byla použita k odhadu haplotypů z HapMap Project. PHASE byl omezen svou rychlostí a nebyl použitelný pro datové soubory ze studií genomové asociace.

Rychlá FÁZE [4] a BEAGLE metody [5] představil haplotypové klastrové modely použitelné pro GWAS - velké datové sady. Následně IMPUTE2[6] a MaCH[7] byly zavedeny metody, které byly podobné přístupu FÁZE, ale mnohem rychlejší. Tyto metody iterativně aktualizují odhady haplotypu každého vzorku podmíněné podmnožinou K odhadů haplotypu jiných vzorků. IMPUTE2 představil myšlenku pečlivého výběru, která podmnožina haplotypů je podmínkou pro zlepšení přesnosti. Přesnost se zvyšuje s K, ale s kvadratickým výpočetní složitost.

Metoda SHAPEIT1 udělala velký pokrok zavedením lineárního metoda složitosti, která funguje pouze na prostoru haplotypů v souladu s genotypy jednotlivce.[8] Metoda HAPI-UR následně navrhla velmi podobnou metodu.[9] SHAPEIT2 [10] kombinuje nejlepší funkce SHAPEIT1 a IMPUTE2 ke zlepšení efektivity a přesnosti.

Viz také

Reference

  1. ^ Marchini, J .; Howie, B. (2010). „Imputace genotypu pro asociační studie v celém genomu“. Genetika hodnocení přírody. 11 (7): 499–511. doi:10.1038 / nrg2796. PMID  20517342. S2CID  1465707.
  2. ^ Howie, B .; Fuchsberger, C .; Stephens, M .; Marchini, J .; Abecasis, G. A. R. (2012). „Rychlá a přesná imputace genotypu ve studiích asociace v celém genomu prostřednictvím předběžného fázování“. Genetika přírody. 44 (8): 955–959. doi:10,1038 / ng.2354. PMC  3696580. PMID  22820512.
  3. ^ Stephens, M .; Smith, N.J .; Donnelly, P. (2001). „Nová statistická metoda pro rekonstrukci haplotypu z populačních dat“. American Journal of Human Genetics. 68 (4): 978–989. doi:10.1086/319501. PMC  1275651. PMID  11254454.
  4. ^ Scheet, P .; Stephens, M. (2006). „Rychlý a flexibilní statistický model pro údaje o populačním genotypu ve velkém měřítku: aplikace k odvození chybějících genotypů a haplotypické fáze“. American Journal of Human Genetics. 78 (4): 629–644. doi:10.1086/502802. PMC  1424677. PMID  16532393.
  5. ^ Browning, S. R .; Browning, B.L. (2007). „Rychlé a přesné fázování haplotypu a odvození chybějících dat pro studie asociace celého genomu pomocí lokalizovaného klastrování haplotypu“. American Journal of Human Genetics. 81 (5): 1084–1097. doi:10.1086/521987. PMC  2265661. PMID  17924348.
  6. ^ Howie, B. N .; Donnelly, P .; Marchini, J. (2009). Schork, Nicholas J (ed.). „Flexibilní a přesná metoda imputace genotypu pro další generaci studií asociace na celém genomu“. Genetika PLOS. 5 (6): e1000529. doi:10.1371 / journal.pgen.1000529. PMC  2689936. PMID  19543373.
  7. ^ Li, Y .; Willer, C. J .; Ding, J .; Scheet, P .; Abecasis, G. A. R. (2010). "MaCH: Použití dat sekvence a genotypu k odhadu haplotypů a nepozorovaných genotypů". Genetická epidemiologie. 34 (8): 816–834. doi:10.1002 / gepi.20533. PMC  3175618. PMID  21058334.
  8. ^ Delaneau, O .; Marchini, J .; Zagury, J. F. O. (2011). "Metoda fázování lineární složitosti pro tisíce genomů". Přírodní metody. 9 (2): 179–181. doi:10.1038 / nmeth.1785. PMID  22138821. S2CID  13765612.
  9. ^ Williams, A.L .; Patterson, N .; Glessner, J .; Hakonarson, H .; Reich, D. (2012). „Fázování mnoha tisíc genotypových vzorků“. American Journal of Human Genetics. 91 (2): 238–251. doi:10.1016 / j.ajhg.2012.06.013. PMC  3415548. PMID  22883141.
  10. ^ Delaneau, O .; Zagury, J. F .; Marchini, J. (2012). „Vylepšené fázování celých chromozomů pro genetické studie onemocnění a populace“. Přírodní metody. 10 (1): 5–6. doi:10.1038 / nmeth.2307. PMID  23269371. S2CID  205421216.