Spearmansův koeficient korelace - Spearmans rank correlation coefficient - Wikipedia



v statistika, Spearmanovův korelační koeficient nebo Spearmanova ρ, pojmenoval podle Charles Spearman a často označován řeckým dopisem (rho) nebo jako , je neparametrické míra hodnostní korelace (statistická závislost mezi žebříčku ze dvou proměnné ). Posuzuje, jak dobře lze popsat vztah mezi dvěma proměnnými pomocí a monotóní funkce.
Spearmanova korelace mezi dvěma proměnnými se rovná Pearsonova korelace mezi hodnotami pořadí těchto dvou proměnných; zatímco Pearsonova korelace hodnotí lineární vztahy, Spearmanova korelace hodnotí monotónní vztahy (ať už lineární nebo ne). Pokud neexistují žádné opakované hodnoty dat, dojde k dokonalé Spearmanově korelaci +1 nebo -1, když je každá z proměnných dokonalou monotónní funkcí druhé.
Intuitivně bude Spearmanova korelace mezi dvěma proměnnými vysoká, když budou mít pozorování podobnou (nebo identickou pro korelaci 1) hodnost (tj. relativní poziční štítek pozorování v rámci proměnné: 1., 2., 3. atd.) mezi těmito dvěma proměnnými a nízká, když mají pozorování odlišnou (nebo zcela odlišnou korelaci -1) mezi těmito dvěma proměnnými.
Spearmanov koeficient je vhodný pro oba kontinuální a diskrétní pořadové proměnné.[1][2] Oba Spearmanovi a Kendall lze formulovat jako speciální případy více obecný korelační koeficient.
Definice a výpočet
Spearmanův korelační koeficient je definován jako Pearsonův korelační koeficient mezi řadit proměnné.[3]
Pro vzorek velikosti n, n surové skóre jsou převedeny do řad , a se počítá jako
kde
- označuje obvyklé Pearsonův korelační koeficient, ale aplikováno na proměnné pořadí,
- je kovariance z řadových proměnných,
- a jsou standardní odchylky hodnostních proměnných.
Pouze pokud všichni n řady jsou odlišná celá čísla, lze jej vypočítat pomocí populárního vzorce
kde
- je rozdíl mezi dvěma řadami každého pozorování,
- n je počet pozorování.
Identické hodnoty jsou obvykle[4] každý přidělen zlomkové pozice rovná průměru jejich pozic ve vzestupném pořadí hodnot, což je ekvivalentní průměrování všech možných permutací.
Pokud jsou v datové sadě vazby, výše uvedený zjednodušený vzorec přináší nesprávné výsledky: Pouze pokud jsou v obou proměnných všechny řady odlišné, pak (vypočteno podle odchýlené odchylky). První rovnici - normalizující se směrodatnou odchylkou - lze použít, i když jsou řady normalizovány na [0, 1] („relativní řady“), protože je necitlivá jak na translaci, tak na lineární změnu měřítka.
Zjednodušená metoda by se rovněž neměla používat v případech, kdy je soubor dat zkrácen; to znamená, když je požadován Spearmanovův korelační koeficient pro vrchol X záznamy (ať už podle pořadí před změnou nebo podle pořadí po změně, nebo obojí), měl by uživatel použít výše uvedený vzorec korelačního koeficientu Pearson.[5]
Standardní chyba koeficientu (σ) byla určena Pearsonem v roce 1907[Citace je zapotřebí ] a Gosset v roce 1920.[Citace je zapotřebí ] to je
Související množství
Existuje několik dalších numerických měr, které kvantifikují rozsah statistická závislost mezi dvojicemi pozorování. Nejběžnější z nich je Pearsonův korelační koeficient produkt-moment, což je podobná korelační metoda jako Spearmanova pozice, která měří spíše „lineární“ vztahy mezi hrubými čísly než mezi jejich řadami.
Alternativní název pro Spearmana hodnostní korelace je „korelace známek“;[6] v tomto případě je „hodnost“ pozorování nahrazena „známkou“. V kontinuálních distribucích je stupeň pozorování podle konvence vždy o polovinu nižší než hodnost, a proto jsou korelace hodnocení a hodnosti v tomto případě stejné. Obecněji je „stupeň“ pozorování úměrný odhadu zlomku populace menší než daná hodnota, s úpravou polovičního pozorování u pozorovaných hodnot. To tedy odpovídá jednomu možnému zacházení se svázanými hodnostmi. I když je to neobvyklé, termín „korelace známek“ se stále používá.[7]
Výklad
![]() Kladný Spearmanův korelační koeficient odpovídá rostoucímu monotónnímu trendu mezi X a Y. | ![]() Negativní Spearmanovův korelační koeficient odpovídá klesajícímu monotónnímu trendu mezi X a Y. |
Znamení Spearmanovy korelace označuje směr asociace mezi X (nezávislá proměnná) a Y (závislá proměnná). Li Y má tendenci se zvyšovat, když X zvyšuje, Spearmanův korelační koeficient je pozitivní. Li Y má tendenci klesat, když X zvyšuje, Spearmanův korelační koeficient je záporný. Spearmanova korelace nuly naznačuje, že neexistuje žádná tendence k Y buď zvýšit nebo snížit, když X zvyšuje. Spearmanova korelace se zvyšuje o velikost as X a Y přiblížit se k tomu, že jsou navzájem dokonale monotónní funkce. Když X a Y jsou dokonale monotónně příbuzné, Spearmanův korelační koeficient se stává 1. Z dokonale monotónně rostoucího vztahu vyplývá, že pro libovolné dva páry datových hodnot Xi, Yi a Xj, Yj, že Xi − Xj a Yi − Yj mít vždy stejné znamení. Z dokonale monotónního klesajícího vztahu vyplývá, že tyto rozdíly mají vždy opačné znaky.
Spearmanův korelační koeficient je často popisován jako „neparametrický“. To může mít dva významy. Nejprve bude výsledkem dokonalá Spearmanova korelace X a Y jsou ve vztahu kdokoli monotónní funkce. Porovnejte to s Pearsonovou korelací, která dává perfektní hodnotu, pouze když X a Y jsou ve vztahu a lineární funkce. Druhý smysl, ve kterém je Spearmanova korelace neparametrická v tom, že její přesné rozdělení vzorkování lze získat, aniž by bylo nutné znát (tj. Znát parametry) společné rozdělení pravděpodobnosti z X a Y.
Příklad
V tomto příkladu se surová data v tabulce níže používají k výpočtu korelace mezi IQ osoby s počtem hodin strávených před televize za týden.[Citace je zapotřebí ]
IQ, | Hodiny televize za týden, |
---|---|
106 | 7 |
100 | 27 |
86 | 2 |
101 | 50 |
99 | 28 |
103 | 29 |
97 | 20 |
113 | 12 |
112 | 6 |
110 | 17 |
Nejprve vyhodnotit . K tomu použijte následující kroky uvedené v následující tabulce.
- Seřadit data podle prvního sloupce (). Vytvořte nový sloupec a přiřadit mu seřazené hodnoty 1, 2, 3, ..., n.
- Dále seřaďte data podle druhého sloupce (). Vytvořte čtvrtý sloupec a podobně mu přiřadit hodnocené hodnoty 1, 2, 3, ..., n.
- Vytvořte pátý sloupec držet rozdíly mezi dvěma sloupci hodnocení ( a ).
- Vytvořte jeden poslední sloupec držet hodnotu sloupce na druhou.
IQ, | Hodiny televize za týden, | hodnost | hodnost | ||
---|---|---|---|---|---|
86 | 2 | 1 | 1 | 0 | 0 |
97 | 20 | 2 | 6 | −4 | 16 |
99 | 28 | 3 | 8 | −5 | 25 |
100 | 27 | 4 | 7 | −3 | 9 |
101 | 50 | 5 | 10 | −5 | 25 |
103 | 29 | 6 | 9 | −3 | 9 |
106 | 7 | 7 | 3 | 4 | 16 |
110 | 17 | 8 | 5 | 3 | 9 |
112 | 6 | 9 | 2 | 7 | 49 |
113 | 12 | 10 | 4 | 6 | 36 |
S nalezeno, přidejte je k hledání . Hodnota n je 10. Tyto hodnoty lze nyní dosadit zpět do rovnice
dát
který se hodnotí na ρ = −29/165 = −0.175757575... s p-hodnota = 0,627188 (pomocí t-rozdělení ).

To, že se hodnota blíží nule, ukazuje, že korelace mezi IQ a hodinami strávenými sledováním televize je velmi nízká, i když negativní hodnota naznačuje, že čím delší je čas strávený sledováním televize, tím nižší je IQ. V případě vazeb v původních hodnotách by se tento vzorec neměl používat; místo toho by měl být Pearsonův korelační koeficient vypočítán z řad (kde jsou uvedeny vazby, jak je popsáno výše)[kde? ]).
Určení významnosti
Jeden přístup k testování, zda pozorovaná hodnota ρ se výrazně liší od nuly (r bude vždy udržovat −1 ≤ r ≤ 1) je vypočítat pravděpodobnost, že by byla větší nebo rovna pozorované hodnotě r, vzhledem k nulová hypotéza, pomocí a permutační test. Výhodou tohoto přístupu je, že automaticky bere v úvahu počet vázaných datových hodnot ve vzorku a způsob, jakým se s nimi zachází při výpočtu korelace pořadí.
Jiný přístup se vyrovná použití Fisherova transformace v případě Pearsonova korelačního koeficientu produkt-moment. To znamená intervaly spolehlivosti a testy hypotéz týkající se hodnoty populace ρ lze provést pomocí Fisherovy transformace:
Li F(r) je Fisherova transformace r, vzorový korelační koeficient Spearmanova hodnocení a n je tedy velikost vzorku
je z-skóre pro r, který přibližně odpovídá standardu normální distribuce pod nulová hypotéza z statistická nezávislost (ρ = 0).[8][9]
Lze také otestovat významnost pomocí
který je distribuován přibližně jako Studentské t-rozdělení s n − 2 stupně volnosti pod nulová hypotéza.[10] Odůvodnění tohoto výsledku závisí na permutačním argumentu.[11]
Zevšeobecnění Spearmanova koeficientu je užitečné v situaci, kdy existují tři nebo více podmínek, v každém z nich je pozorován určitý počet subjektů a předpokládá se, že pozorování budou mít konkrétní pořadí. Například řadě subjektů může každý dostat tři pokusy se stejným úkolem a předpokládá se, že výkon se bude zlepšovat od pokusu k pokusu. Test významnosti trendu mezi podmínkami v této situaci vypracovala E. B. Page[12] a obvykle se označuje jako Trendový test stránky pro objednané alternativy.
Korespondenční analýza založená na Spearmanově ρ
Klasický korespondenční analýza je statistická metoda, která dává skóre každé hodnotě dvou nominálních proměnných. Tímto způsobem Pearson korelační koeficient mezi nimi je maximalizována.
Existuje ekvivalent této metody s názvem klasifikační korespondenční analýza, což maximalizuje Spearmanovu ρ nebo Kendallův τ.[13]
Softwarové implementace
- R Statistický základní balíček implementuje test
cor.test (x, y, method = "spearman")
ve svém balíčku "statistik" (takécor (x, y, method = "spearman")
bude pracovat. - MATLAB implementace:
[r, p] = corr (x, y, 'Type', 'Spearman')
kder
je Spearmanovův koeficient korelace,p
je hodnota p aX
ay
jsou vektory. [14] - Krajta. Lze vypočítat pomocí spearmanr funkce modulu scipy.stats.
Viz také
- Kendall tau rank korelační koeficient
- Čebyševova nerovnost součtu, přeskupení nerovnost (Tyto dva články mohou osvětlit matematické vlastnosti Spearmanaρ.)
- Korelace vzdálenosti
- Polychorická korelace
Reference
- ^ Typy stupnic.
- ^ Lehman, Ann (2005). Jmp pro základní univariantní a multivariační statistiku: podrobný průvodce. Cary, NC: SAS Press. str.123. ISBN 978-1-59047-576-8.
- ^ Myers, Jerome L .; Arnold D. (2003). Návrh výzkumu a statistická analýza (2. vyd.). Lawrence Erlbaum. str.508. ISBN 978-0-8058-4037-7.
- ^ Dodge, Yadolah (2010). Stručná encyklopedie statistik. Springer-Verlag New York. str.502. ISBN 978-0-387-31742-7.
- ^ Al Jaber, Ahmed Odeh; Elayyan, Haifaa Omar (2018). Směrem k zajištění kvality a excelence ve vysokoškolském vzdělávání. River Publishers. str. 284. ISBN 978-87-93609-54-9.
- ^ Yule, G. U .; Kendall, M. G. (1968) [1950]. Úvod do teorie statistiky (14. vydání). Charles Griffin & Co. str. 268.
- ^ Piantadosi, J .; Howlett, P .; Boland, J. (2007). "Shodnocení korelačního koeficientu stupně pomocí spony s maximální poruchou". Journal of Industrial and Management Optimization. 3 (2): 305–312. doi:10.3934 / jimo.2007.3.305.
- ^ Choi, S. C. (1977). "Zkoušky rovnosti závislých korelačních koeficientů". Biometrika. 64 (3): 645–647. doi:10.1093 / biomet / 64.3.645.
- ^ Fieller, E. C .; Hartley, H.O .; Pearson, E. S. (1957). „Testy na koeficienty korelace pozic. Biometrika. 44 (3–4): 470–481. CiteSeerX 10.1.1.474.9634. doi:10.1093 / biomet / 44,3-4,470.
- ^ Lis; Vetrání; Teukolsky; Flannery (1992). Numerické recepty v C: Umění vědeckých výpočtů (2. vyd.). Cambridge University Press. str. 640.
- ^ Kendall, M. G .; Stuart, A. (1973). „Oddíly 31.19, 31.21“. Advanced Theory of Statistics, Volume 2: Inference and Relationship. Griffin. ISBN 978-0-85264-215-3.
- ^ Page, E. B. (1963). "Objednané hypotézy pro více ošetření: Test významnosti pro lineární řady". Journal of the American Statistical Association. 58 (301): 216–230. doi:10.2307/2282965. JSTOR 2282965.
- ^ Kowalczyk, T .; Pleszczyńska, E .; Ruland, F., eds. (2004). Stupňové modely a metody pro analýzu dat s aplikacemi pro analýzu populací dat. Studium fuzziness a soft computingu. 151. Berlin Heidelberg New York: Springer Verlag. ISBN 978-3-540-21120-4.
- ^ https://www.mathworks.com/help/stats/corr.html
Další čtení
- Corder, G. W. & Foreman, D. I. (2014). Neparametrická statistika: přístup krok za krokem, Wiley. ISBN 978-1118840313.
- Daniel, Wayne W. (1990). "Spearmanův koeficient korelace". Aplikovaná neparametrická statistika (2. vyd.). Boston: PWS-Kent. str. 358–365. ISBN 978-0-534-91976-4.
- Spearman C. (1904). "Důkaz a měření asociace mezi dvěma věcmi". American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159. JSTOR 1412159.
- Bonett D. G., Wright, T. A. (2000). "Požadavky na velikost vzorku pro korelace Pearson, Kendall a Spearman". Psychometrika. 65: 23–28. doi:10.1007 / bf02294183.CS1 maint: více jmen: seznam autorů (odkaz)
- Kendall M. G. (1970). Rank korelační metody (4. vydání). Londýn: Griffin. ISBN 978-0-852-6419-96. OCLC 136868.
- Hollander M., Wolfe D. A. (1973). Neparametrické statistické metody. New York: Wiley. ISBN 978-0-471-40635-8. OCLC 520735.
- Caruso J. C., Cliff N. (1997). "Empirická velikost, pokrytí a intervaly spolehlivosti pro Spearman's Rho". Vzdělávací a psychologické měření. 57 (4): 637–654. doi:10.1177/0013164497057004009.
externí odkazy
- Tabulka kritických hodnot ρ pro význam s malými vzorky
- Spearmanův koeficient korelace - průvodce Excel: ukázková data a vzorce pro Excel, vyvinuté Královská geografická společnost.