Fisherova transformace - Fisher transformation

v statistika, Fisherova transformace (aka Rybář z-proměna) lze použít k testování hypotéz o hodnotě populace korelační koeficient ρ mezi proměnnými X a Y.[1][2] Je to proto, že když je transformace aplikována na korelační koeficient vzorku, rozdělení vzorkování výsledné proměnné je přibližně normální, s rozptylem, který je stabilní při různých hodnotách podkladové skutečné korelace.
Definice
Vzhledem k souboru N dvojrozměrné páry vzorků (Xi, Yi), i = 1, ..., N, korelační koeficient vzorku r je dána
Tady znamená kovariance mezi proměnnými a a znamená standardní odchylka příslušné proměnné. Fisherova transformace z r je definován jako
kde "ln" je přirozený logaritmus funkce a "arctanh" je inverzní hyperbolická tangensová funkce.
Pokud (X, Y) má rozdělit normální rozdělení s korelací ρ a dvojicemi (Xi, Yi) jsou nezávislé a identicky distribuované, pak z je přibližně normálně distribuováno s průměrem
kde N je velikost vzorku a ρ je skutečný korelační koeficient.
Tato transformace a její inverze
lze použít ke konstrukci velkého vzorku interval spolehlivosti pror pomocí standardní normální teorie a derivací. Viz také přihláška do částečná korelace.
Derivace

Chcete-li odvodit Fisherovu transformaci, začněte zvážením libovolné rostoucí funkce , řekněme . Nalezení prvního termínu ve velkém rozšíření odpovídající šikmosti má za následek
Vytvoření rovné nule a řešení odpovídající diferenciální rovnice pro výnosy funkce. Podobně rozšiřujeme průměr a rozptyl , jeden dostane
a
resp. Zvláštní výrazy nejsou součástí obvyklé Fisherovy transformace. Pro velké hodnoty a malé hodnoty představují velké zlepšení přesnosti při minimálních nákladech, i když značně komplikují výpočet inverze jako a uzavřený výraz není k dispozici. Téměř konstantní rozptyl transformace je výsledkem odstranění její šikmosti - skutečného zlepšení je dosaženo tím druhým, nikoli extra podmínkami. Včetně výtěžků navíc:
který má k vynikající aproximaci a standardní normální rozdělení.[3]
Diskuse
Fisherova transformace je přibližná varianta stabilizující transformaci pro r když X a Y následujte dvojrozměrné normální rozdělení. To znamená, že rozptyl z je přibližně konstantní pro všechny hodnoty korelačního koeficientu populace ρ. Bez Fisherovy transformace, rozptyl r se zmenšuje jako |ρ| blíží se 1. Protože Fisherova transformace je přibližně funkcí identity, když |r| <1/2, je někdy užitečné si uvědomit, že rozptyl r je dobře aproximován 1 /N pokud |ρ| není příliš velký a N není příliš malý. To souvisí se skutečností, že asymptotická varianta r je 1 pro dvojrozměrné normální údaje.
Chování této transformace bylo od té doby rozsáhle studováno Rybář představil v roce 1915. Fisher sám zjistil přesné rozdělení z pro data z dvojrozměrného normálního rozdělení v roce 1921; Gayen v roce 1951[4]určil přesné rozdělení z pro data z dvojrozměrného typu A. Edgeworth distribuce. Hotelling v roce 1953 vypočítal výrazy Taylorovy řady pro momenty z a několik souvisejících statistik[5] a Hawkins v roce 1989 objevili asymptotickou distribuci z pro data z distribuce s ohraničenými čtvrtými momenty.[6]
Jiná použití
Zatímco Fisherova transformace je spojena hlavně s Pearsonův korelační koeficient produkt-moment pro dvojrozměrná normální pozorování to lze také použít na Spearmanovův korelační koeficient v obecnějších případech.[7] Podobný výsledek pro asymptotická distribuce platí, ale s malým faktorem úpravy: viz druhý článek[je zapotřebí objasnění ] pro detaily.
Viz také
- Transformace dat (statistika)
- Metaanalýza (tato transformace se používá v metaanalýze ke stabilizaci rozptylu)
- Částečná korelace
- R implementace
Reference
- ^ Fisher, R. A. (1915). "Frekvenční rozdělení hodnot korelačního koeficientu ve vzorcích neomezeně velké populace". Biometrika. 10 (4): 507–521. doi:10.2307/2331838. hdl:2440/15166. JSTOR 2331838.
- ^ Fisher, R. A. (1921). „O„ pravděpodobné chybě “korelačního koeficientu odvozeného z malého vzorku“ (PDF). Metron. 1: 3–32.
- ^ Vrbik, Jan (prosinec 2005). "Populační momenty distribucí vzorkování". Výpočetní statistika. 20 (4): 611–621. doi:10.1007 / BF02741318.
- ^ Gayen, A. K. (1951). "Frekvenční rozdělení koeficientu korelace produktu a momentu v náhodných vzorcích libovolné velikosti čerpaných z nenormálních vesmírů". Biometrika. 38 (1/2): 219–247. doi:10.1093 / biomet / 38.1-2.219. JSTOR 2332329.
- ^ Hotelling, H (1953). "Nové světlo na korelační koeficient a jeho transformace". Journal of the Royal Statistical Society, Series B. 15 (2): 193–225. JSTOR 2983768.
- ^ Hawkins, D.L. (1989). „Použití statistiky U k odvození asymptotického rozdělení Fisherovy Z statistiky“. Americký statistik. 43 (4): 235–237. doi:10.2307/2685369. JSTOR 2685369.
- ^ Zar, Jerrold H. (2005). "Spearman Rank Correlation: Overview". Encyklopedie biostatistiky. doi:10.1002 / 9781118445112.stat05964. ISBN 9781118445112.