Fisherova transformace - Fisher transformation

Graf transformace (oranžově). Netransformovaný koeficient korelace vzorku je vynesen na vodorovnou osu a transformovaný koeficient je vynesen na svislou osu. Pro identifikaci je také zobrazena funkce identity (šedá).

v statistika, Fisherova transformace (aka Rybář z-proměna) lze použít k testování hypotéz o hodnotě populace korelační koeficient ρ mezi proměnnými X a Y.[1][2] Je to proto, že když je transformace aplikována na korelační koeficient vzorku, rozdělení vzorkování výsledné proměnné je přibližně normální, s rozptylem, který je stabilní při různých hodnotách podkladové skutečné korelace.

Definice

Vzhledem k souboru N dvojrozměrné páry vzorků (XiYi), i = 1, ..., N, korelační koeficient vzorku r je dána

Tady znamená kovariance mezi proměnnými a a znamená standardní odchylka příslušné proměnné. Fisherova transformace z r je definován jako

kde "ln" je přirozený logaritmus funkce a "arctanh" je inverzní hyperbolická tangensová funkce.

Pokud (XY) má rozdělit normální rozdělení s korelací ρ a dvojicemi (XiYi) jsou nezávislé a identicky distribuované, pak z je přibližně normálně distribuováno s průměrem

a standardní chyba

kde N je velikost vzorku a ρ je skutečný korelační koeficient.

Tato transformace a její inverze

lze použít ke konstrukci velkého vzorku interval spolehlivosti pror pomocí standardní normální teorie a derivací. Viz také přihláška do částečná korelace.

Derivace

Fisher Transformace s a . Ilustrována je přesná funkce hustoty pravděpodobnosti (v černé barvě), spolu s funkcemi hustoty pravděpodobnosti obvyklé Fisherovy transformace (modrá) a funkcí získaných zahrnutím dalších výrazů, které závisí na (Červené). Druhá aproximace je vizuálně nerozeznatelná od přesné odpovědi (její maximální chyba je 0,3% ve srovnání s 3,4% základního Fishera).

Chcete-li odvodit Fisherovu transformaci, začněte zvážením libovolné rostoucí funkce , řekněme . Nalezení prvního termínu ve velkém rozšíření odpovídající šikmosti má za následek

Vytvoření rovné nule a řešení odpovídající diferenciální rovnice pro výnosy funkce. Podobně rozšiřujeme průměr a rozptyl , jeden dostane

a

resp. Zvláštní výrazy nejsou součástí obvyklé Fisherovy transformace. Pro velké hodnoty a malé hodnoty představují velké zlepšení přesnosti při minimálních nákladech, i když značně komplikují výpočet inverze jako a uzavřený výraz není k dispozici. Téměř konstantní rozptyl transformace je výsledkem odstranění její šikmosti - skutečného zlepšení je dosaženo tím druhým, nikoli extra podmínkami. Včetně výtěžků navíc:

který má k vynikající aproximaci a standardní normální rozdělení.[3]

Diskuse

Fisherova transformace je přibližná varianta stabilizující transformaci pro r když X a Y následujte dvojrozměrné normální rozdělení. To znamená, že rozptyl z je přibližně konstantní pro všechny hodnoty korelačního koeficientu populace ρ. Bez Fisherovy transformace, rozptyl r se zmenšuje jako |ρ| blíží se 1. Protože Fisherova transformace je přibližně funkcí identity, když |r| <1/2, je někdy užitečné si uvědomit, že rozptyl r je dobře aproximován 1 /N pokud |ρ| není příliš velký a N není příliš malý. To souvisí se skutečností, že asymptotická varianta r je 1 pro dvojrozměrné normální údaje.

Chování této transformace bylo od té doby rozsáhle studováno Rybář představil v roce 1915. Fisher sám zjistil přesné rozdělení z pro data z dvojrozměrného normálního rozdělení v roce 1921; Gayen v roce 1951[4]určil přesné rozdělení z pro data z dvojrozměrného typu A. Edgeworth distribuce. Hotelling v roce 1953 vypočítal výrazy Taylorovy řady pro momenty z a několik souvisejících statistik[5] a Hawkins v roce 1989 objevili asymptotickou distribuci z pro data z distribuce s ohraničenými čtvrtými momenty.[6]

Jiná použití

Zatímco Fisherova transformace je spojena hlavně s Pearsonův korelační koeficient produkt-moment pro dvojrozměrná normální pozorování to lze také použít na Spearmanovův korelační koeficient v obecnějších případech.[7] Podobný výsledek pro asymptotická distribuce platí, ale s malým faktorem úpravy: viz druhý článek[je zapotřebí objasnění ] pro detaily.

Viz také

Reference

  1. ^ Fisher, R. A. (1915). "Frekvenční rozdělení hodnot korelačního koeficientu ve vzorcích neomezeně velké populace". Biometrika. 10 (4): 507–521. doi:10.2307/2331838. hdl:2440/15166. JSTOR  2331838.
  2. ^ Fisher, R. A. (1921). „O„ pravděpodobné chybě “korelačního koeficientu odvozeného z malého vzorku“ (PDF). Metron. 1: 3–32.
  3. ^ Vrbik, Jan (prosinec 2005). "Populační momenty distribucí vzorkování". Výpočetní statistika. 20 (4): 611–621. doi:10.1007 / BF02741318.
  4. ^ Gayen, A. K. (1951). "Frekvenční rozdělení koeficientu korelace produktu a momentu v náhodných vzorcích libovolné velikosti čerpaných z nenormálních vesmírů". Biometrika. 38 (1/2): 219–247. doi:10.1093 / biomet / 38.1-2.219. JSTOR  2332329.
  5. ^ Hotelling, H (1953). "Nové světlo na korelační koeficient a jeho transformace". Journal of the Royal Statistical Society, Series B. 15 (2): 193–225. JSTOR  2983768.
  6. ^ Hawkins, D.L. (1989). „Použití statistiky U k odvození asymptotického rozdělení Fisherovy Z statistiky“. Americký statistik. 43 (4): 235–237. doi:10.2307/2685369. JSTOR  2685369.
  7. ^ Zar, Jerrold H. (2005). "Spearman Rank Correlation: Overview". Encyklopedie biostatistiky. doi:10.1002 / 9781118445112.stat05964. ISBN  9781118445112.