Jednostranné a dvoustranné testy - One- and two-tailed tests

A dvoustranný test aplikován na normální distribuce.
A jednostranný test, zobrazující str-hodnota jako velikost jednoho ocasu.

Ve statistice testování významnosti, a jednostranný test a a dvoustranný test jsou alternativní způsoby výpočtu statistická významnost a parametr odvozeno ze souboru dat, pokud jde o a statistika testu. Dvoustranný test je vhodný, pokud je odhadovaná hodnota větší nebo menší než určitý rozsah hodnot, například zda testující může skóre přesáhnout nebo pod určitým rozsahem skóre. Tato metoda se používá pro nulová hypotéza testování a pokud odhadovaná hodnota existuje v kritických oblastech, je přijata alternativní hypotéza nad nulovou hypotézou. Jednostranný test je vhodný, pokud se odhadovaná hodnota může odchýlit od referenční hodnoty pouze v jednom směru, vlevo nebo vpravo, ale ne v obou. Příkladem může být, zda stroj vyrábí více než jedno procento vadných produktů. V této situaci, pokud odhadovaná hodnota existuje v jedné z jednostranných kritických oblastí, v závislosti na směru zájmu (větší nebo menší než), je přijata alternativní hypotéza nad nulovou hypotézou. Alternativní názvy jsou jednostranný a oboustranný testy; používá se terminologie „ocas“, protože extrémní části distribucí, kde pozorování vedou k odmítnutí nulové hypotézy, jsou malé a často „ocasní“ směrem k nule jako v normální distribuce, zbarvené žlutě nebo „křivka zvonu“, na obrázku vpravo a zbarvené zeleně.

Aplikace

Jednostranné testy se používají pro asymetrické distribuce, které mají jeden ocas, například distribuce chí-kvadrát, které jsou běžné při měření dobrota, nebo pro jednu stranu distribuce, která má dva ocasy, například normální distribuce, což je běžné při odhadování polohy; to odpovídá zadání směru. Dvoustranné testy jsou použitelné pouze v případě, že existují dva ocasy, například v normálním rozdělení, a odpovídají zvážení obou směrů za významné.[1][2]

V přístupu Ronald Fisher, nulová hypotéza H0 bude zamítnuto, když str-hodnota z statistika testu je dostatečně extrémní (vůči statistice testu Distribuce vzorků ), a tudíž je nepravděpodobné, že bude výsledkem náhody. To se obvykle provádí porovnáním výsledné hodnoty p se zadanou úrovní významnosti, označenou , při výpočtu statistické významnosti parametru. V jednostranném testu se předem rozhodne o „extrému“, což znamená „dostatečně malý“ nebo což znamená „dostatečně velké“ - hodnoty v opačném směru se nepovažují za významné. Lze hlásit, že pravděpodobnost levého nebo pravého ocasu jako jednostranná hodnota p, která nakonec odpovídá směru, ve kterém se statistika testu odchyluje od H0.[3] Při dvoustranném testu „extrém“ znamená „buď dostatečně malý, nebo dostatečně velký“ a hodnoty v obou směrech jsou považovány za významné.[4] Pro danou statistiku testu existuje jeden dvoustranný test a dva jednostranné testy, každý pro každý směr. Pokud je uvedena úroveň významnosti , kritické oblasti by existovaly na dvou ocasních koncích distribuce s oblastí každý pro dvoustranný test. Alternativně by kritická oblast existovala pouze na jednom ocasním konci s oblastí pro jednostranný test. Pro danou hladinu významnosti ve dvoustranném testu pro statistiku testu budou odpovídající jednostranné testy pro stejnou statistiku testu považovány za dvakrát tak významné (polovina str-value) pokud jsou data ve směru stanoveném testem, nebo nejsou vůbec významná (str- výše uvedená hodnota ) pokud jsou data ve směru opačném od kritické oblasti určené testem.

Například pokud hodil mincí, testování, zda je předpjatý vůči heads je jednostranný test a získávání dat „všech hlav“ by bylo považováno za vysoce významné, zatímco získávání dat „všech ocasů“ by nebylo vůbec významné (str = 1). Naproti tomu testování, zda je předpojatý buď Směr je dvoustranný test a buď „všechny hlavy“, nebo „všechny ocasy“ by byly považovány za vysoce významná data. V lékařském testování se člověk obecně zajímá o to, zda léčba vede k výsledkům, které jsou lepší než náhoda, což naznačuje jednostranný test; A horší výsledek je také zajímavý pro vědeckou oblast, proto by měl být použit dvoustranný test, který místo toho odpovídá testování, zda léčba vede k výsledkům, které jsou odlišný od náhody, ať už lepší nebo horší.[5] V archetypálním paní ochutnávající čaj experiment, Fisher testoval, zda dotyčná dáma byla lepší než náhoda rozlišit dva druhy přípravy čaje, ne to, zda její schopnosti byly odlišný od náhody, a tak použil jednostranný test.

Příklad převrácení mincí

Při převracení mincí je nulová hypotéza je posloupnost Bernoulliho zkoušky s pravděpodobností 0,5, čímž se získá náhodná proměnná X což je 1 pro hlavy a 0 pro ocasy a běžnou statistikou testu je průměr vzorku (z počtu hlav) Při testování, zda je mince předpjatá směrem k hlavám, by se použil jednostranný test - významný by byl pouze velký počet hlav. V takovém případě má datová sada pěti hlav (HHHHH) s průměrem vzorku 1, a šance na výskyt, (5 po sobě jdoucích převrácení se 2 výsledky - ((1/2) ^ 5 = 1/32). To by mělo a bylo by významné (odmítnutí nulové hypotézy), pokud by byl test analyzován na hladině významnosti (úroveň významnosti odpovídající mezní hranici). Pokud by se však testovalo, zda je mince předpjatá směrem k hlavám nebo ocasům, použil by se dvoustranný test a soubor dat pěti hlav (průměr vzorku 1) je stejně extrémní jako soubor dat pěti ocasů (průměr vzorku 0 ). V důsledku toho str-hodnota by byla a to by nebylo významné (neodmítající nulovou hypotézu), pokud by byl test analyzován na hladině významnosti .

Dějiny

str-hodnota distribuce chí-kvadrát pro různý počet stupňů volnosti

The str-hodnota byla zavedena Karl Pearson[6] v Pearsonův test chí-kvadrát, kde definoval P (původní zápis) jako pravděpodobnost, že statistika bude na dané úrovni nebo nad ní. Jedná se o jednostrannou definici a rozdělení chí-kvadrát je asymetrické, pouze za předpokladu kladných nebo nulových hodnot a má pouze jeden ocas, horní. Měří to dobrota fit dat s teoretickým rozdělením, přičemž nula odpovídá přesné shodě s teoretickým rozdělením; the str-value tedy měří, jak pravděpodobné by fit bylo tak špatné nebo horší.

Normální distribuce, ukazující dva ocasy

Rozdíl mezi jednostrannými a dvoustrannými testy popularizoval Ronald Fisher ve vlivné knize Statistické metody pro výzkumné pracovníky[7], kde ji aplikoval zejména na normální distribuce, což je symetrické rozdělení se dvěma stejnými ocasy. Normální rozdělení je běžnou mírou umístění, spíše než shoda, a má dva konce, což odpovídá odhadu umístění nad nebo pod teoretickým umístěním (např. Průměr vzorku ve srovnání s teoretickým průměrem). V případě symetrického rozdělení, jako je normální rozdělení, jednostranný str-hodnota je přesně polovina dvoustranného str-hodnota:[7]

Nějaký zmatek někdy zavádí skutečnost, že v některých případech chceme znát pravděpodobnost, že odchylka, o které je známo, že je pozitivní, překročí pozorovanou hodnotu, zatímco v jiných případech je požadovaná pravděpodobnost, že odchylka, která je stejně často pozitivní a záporné, překročí pozorovanou hodnotu; druhá pravděpodobnost je vždy poloviční.

Fisher zdůraznil důležitost měření ocasu - pozorované hodnoty statistik testu a všech extrémů - spíše než jen pravděpodobnost samotného konkrétního výsledku, v jeho Návrh experimentů (1935).[8] Vysvětluje to proto, že a charakteristický soubor dat může být nepravděpodobný (v nulové hypotéze), ale pravděpodobnější extrémnější výsledky, takže v tomto světle by konkrétní, ale ne extrémně nepravděpodobné údaje neměly být považovány za významné.

Specifické testy

Pokud následuje statistika zkoušky a Studentské t-rozdělení v nulové hypotéze - což je běžné, když podkladová proměnná následuje a normální distribuce s neznámým faktorem měřítka, pak se test označuje jako jednostranný nebo dvoustranný t-test. Pokud je test prováděn s použitím skutečného průměru a rozptylu populace, spíše než odhad ze vzorku, byl by nazýván jednostranný nebo dvoustranný Z-test.

The statistické tabulky pro t a pro Z poskytnout kritické hodnoty pro jednostranný i dvoustranný test. To znamená, že poskytují kritické hodnoty, které odříznou celou oblast na jednom nebo druhém konci distribuce vzorkování, stejně jako kritické hodnoty, které odříznou oblasti (poloviční velikosti) na obou koncích distribuce vzorkování.

Viz také

Reference

  1. ^ Mundry, R .; Fischer, J. (1998). „Použití statistických programů pro neparametrické testy malých vzorků často vede k nesprávným hodnotám P: příklady chování zvířat“. Chování zvířat. 56 (1): 256–259. doi:10.1006 / anbe.1998.0756. PMID  9710485.
  2. ^ Pillemer, D. B. (1991). „Testy hypotézy jedno versus dvoustranný v současném pedagogickém výzkumu“. Výzkumný pracovník. 20 (9): 13–17. doi:10.3102 / 0013189X020009013.
  3. ^ Moderní úvod do pravděpodobnosti a statistiky: porozumění proč a jak. Dekking, Michel, 1946-. Londýn: Springer. 2005. str.389 –390. ISBN  9781852338961. OCLC  262680588.CS1 maint: ostatní (odkaz)
  4. ^ John E. Freund, (1984) Moderní základní statistiky, šesté vydání. Hala Prentice. ISBN  0-13-593525-3 (Sekce „Závěry o prostředcích“, kapitola „Zkoušky významnosti“, strana 289.)
  5. ^ J M Bland, D G Bland (BMJ, 1994) Statistické poznámky: Jednostranný a dvoustranný test významnosti
  6. ^ Pearson, Karl (1900). „Kritérium, že daný systém odchylek od pravděpodobného v případě korelovaného systému proměnných je takový, že lze důvodně předpokládat, že vznikl náhodným výběrem“ (PDF). Filozofický časopis. Řada 5. 50 (302): 157–175. doi:10.1080/14786440009463897.
  7. ^ A b Fisher, Ronalde (1925). Statistické metody pro výzkumné pracovníky. Edinburgh: Oliver & Boyd. ISBN  0-05-002170-2.
  8. ^ Fisher, Ronald A. (1971) [1935]. Návrh experimentů (9. vydání). Macmillana. ISBN  0-02-844690-9.