Cochran – Armitage test na trend - Cochran–Armitage test for trend

The Cochran – Armitage test na trend,^[1]^[2] pojmenovaný pro William Cochran a Peter Armitage, se používá při kategorické analýze dat, když je cílem posoudit přítomnost sdružení mezi proměnnou se dvěma kategoriemi a řadovou proměnnou s k Kategorie. Upravuje Pearsonův test chí-kvadrát začlenit podezřelý příkaz do účinků k kategorie druhé proměnné. Například dávky léčby lze objednat jako „nízké“, „střední“ a „vysoké“, a můžeme mít podezření, že se přínos léčby nemůže snižovat, jak se dávka zvyšuje. Test trendů se často používá jako a genotyp - test založený na kontrola případů genetický asociační studie.^[3]

Úvod

Test trendu se použije, když mají data formu 2 ×k pohotovostní tabulka. Například pokud k = 3 máme

	B = 1	B = 2	B = 3
A = 1	N₁₁	N₁₂	N₁₃
A = 2	N₂₁	N₂₂	N₂₃

Tuto tabulku lze doplnit mezními součty dvou proměnných

	B = 1	B = 2	B = 3	Součet
A = 1	N₁₁	N₁₂	N₁₃	R₁
A = 2	N₂₁	N₂₂	N₂₃	R₂
Součet	C₁	C₂	C₃	N

kde R₁ = N₁₁ + N₁₂ + N₁₃, a C₁ = N₁₁ + N₂₁, atd.

Trend statistika testu je

{ displaystyle T equiv sum _ {i = 1} ^ {k} t_ {i} (N_ {1i} R_ {2} -N_ {2i} R_ {1}),}

Kde t_i jsou váhy a rozdíl N_1iR₂ −N_2iR₁ lze vidět jako rozdíl mezi N_1i a N_2i po opětovném zvážení řádků, aby měl stejný součet.

Hypotéza o neexistenci asociace (dále jen nulová hypotéza ) lze vyjádřit jako:

{ displaystyle Pr (A = 1 | B = 1) = cdots = Pr (A = 1 | B = k).}

Za předpokladu, že to platí, pak pomocí opakované očekávání,

{ displaystyle operatorname {E} (T) = operatorname {E} left ( operatorname {E} (T | R_ {1}, R_ {2}) right) = operatorname {E} (0) = 0.}

Rozptyl lze vypočítat pomocí rozklad, poddajný

{ displaystyle { rm {Var}} (T) = { frac {R_ {1} R_ {2}} {N}} vlevo ( sum _ {i = 1} ^ {k} t_ {i} ^ {2} C_ {i} (N-C_ {i}) - 2 sum _ {i = 1} ^ {k-1} sum _ {j = i + 1} ^ {k} t_ {i} t_ {j} C_ {i} C_ {j} vpravo),}

a jako velká aproximace vzorku,

{ displaystyle { frac {T} { sqrt { mathrm {Var} (T)}}} sim mathrm {N} (0,1).}

Váhy t_i lze zvolit tak, aby se trendový test stal lokálně nejvíce silný pro detekci konkrétních typů asociací. Například pokud k = 3 a máme podezření, že B = 1 a B = 2 mají podobné frekvence (v každém řádku), ale to B = 3 má jinou frekvenci, pak váhy t = (1,1,0) by mělo být použito. Pokud máme podezření na lineární trend ve frekvencích, pak váhy t = (0,1,2) by mělo být použito. Tyto váhy se také často používají, když existuje podezření, že se frekvence monotónně mění B, i když trend nemusí být nutně lineární.

Interpretace a role

Test trendu bude mít vyšší Napájení než test chí-kvadrát, když je podezřelý trend správný, ale schopnost detekovat netušené trendy je obětována. Toto je příklad obecné techniky směrování testů hypotéz směrem k úzkým alternativy. Test trendu využívá směr předpokládaného účinku ke zvýšení výkonu, ale to nemá vliv na distribuci vzorkování statistik testu podle nulová hypotéza. Předpokládaný trend účinků tedy není předpokladem, který musí platit, aby výsledky testu byly smysluplné.

Aplikace na genetiku

Předpokládejme, že jsou tři možné genotypy u některých místo, a označujeme je jako aa, Aa a AA. Distribuci počtů genotypů lze uvést v kontingenční tabulce 2 × 3. Zvažte například následující data, ve kterých se frekvence genotypu v případech lineárně liší a jsou v kontrolách konstantní:

	Genotyp aa	Genotyp Aa	Genotyp AA	Součet
Řízení	20	20	20	60
Případy	10	20	30	60
Součet	30	40	50	120

V genetických aplikacích jsou váhy vybírány podle podezření způsob dědičnosti. Například za účelem testování, zda alela a je dominantní nad alelou A, volba t = (1, 1, 0) je lokálně optimální. Chcete-li otestovat, zda je alela a recesivní do alely A, je optimální volba t = (0, 1, 1). Vyzkoušet, zda jsou alely a a A. kodominant, volba t = (0, 1, 2) je lokálně optimální. Pro komplexní nemoci, základní genetický model je často neznámý. v genomové asociační studie se často používá aditivní (nebo kodominantní) verze testu.

V numerickém příkladu jsou standardizované statistiky testů pro různé vektory hmotnosti

Závaží	Standardizovaná statistika zkoušek
1,1,0	1.85
0,1,1	−2.1
0,1,2	−2.3

a Pearsonův chí-kvadrát test dává standardizovanou statistiku testu 2. Tedy získáme silnější hladinu významnosti, pokud jsou použity váhy odpovídající aditivní (kodominantní) dědičnosti. Všimněte si, že pro úroveň významnosti dejte a p-hodnota s obvyklou pravděpodobnostní interpretací musí být váhy prozkoumány před zkoumáním dat a může být použita pouze jedna sada vah.

Viz také

Seznam analýz kategoriálních údajů

Reference

Agresti, Alan (2002). Kategorická analýza dat (Druhé vydání.). Wiley. ISBN 0-471-36093-7. Citovat má prázdný neznámý parametr: |1= (Pomoc)
Sasieni, P (1997). "Od genotypů ke genům: zdvojnásobení velikosti vzorku". Biometrie. Mezinárodní biometrická společnost. 53 (4): 1253–61. doi:10.2307/2533494. JSTOR 2533494. PMID 9423247.
statgen.org (2007). „Odvození pro trendový test společnosti Armitage pro tabulku genotypů 2 × 3“ (PDF). Citováno 6. února 2009. –

^ Cochran, WG (1954). "Některé metody pro posílení běžných chí-kvadrát testů". Biometrie. Mezinárodní biometrická společnost. 10 (4): 417–451. doi:10.2307/3001616. JSTOR 3001616.
^ Armitage, P (1955). "Testy lineárních trendů v proporcích a frekvencích". Biometrie. Mezinárodní biometrická společnost. 11 (3): 375–386. doi:10.2307/3001775. JSTOR 3001775.
^ Purcell S, Neale B, Todd-Brown K, et al. (Září 2007). „PLINK: sada nástrojů pro asociaci celého genomu a populační analýzy vazeb“. Dopoledne. J. Hum. Genet. 81 (3): 559–75. doi:10.1086/519795. PMC 1950838. PMID 17701901.

[1] Cochran, WG (1954). "Některé metody pro posílení běžných chí-kvadrát testů". Biometrie. Mezinárodní biometrická společnost. 10 (4): 417–451. doi:10.2307/3001616. JSTOR 3001616.

[2] Armitage, P (1955). "Testy lineárních trendů v proporcích a frekvencích". Biometrie. Mezinárodní biometrická společnost. 11 (3): 375–386. doi:10.2307/3001775. JSTOR 3001775.

[3] Purcell S, Neale B, Todd-Brown K, et al. (Září 2007). „PLINK: sada nástrojů pro asociaci celého genomu a populační analýzy vazeb“. Dopoledne. J. Hum. Genet. 81 (3): 559–75. doi:10.1086/519795. PMC 1950838. PMID 17701901.

[1]

[2]

[3]