Somers D - Somers D - Wikipedia
Ve statistikách Somers ' D, někdy nesprávně označované jako Somerova D, je měřítkem pořadové sdružení mezi dvěma případně závislými náhodnými proměnnými X a Y. Somers ' D bere hodnoty mezi když všechny páry proměnných nesouhlasí a když všechny páry proměnných souhlasí. Somers ' D je pojmenována po Robertu H. Somersovi, který ji navrhl v roce 1962.[1]
Somers ' D hraje ústřední roli ve statistikách hodnosti a je parametrem mnoha neparametrických metod.[2] Používá se také jako měřítko kvality binární volba nebo ordinální regrese (např., logistické regrese ) a kreditní bodování modely.
Somers ' D pro vzorek
Říkáme, že dva páry a jsou shodný pokud souhlasí řady obou prvků, nebo a nebo když a . Říkáme, že dva páry a jsou nesouhlasné, pokud řady obou prvků nesouhlasí, nebo pokud a nebo když a . Li nebo , pár není ani v souladu, ani v rozporu.
Nechat být množinou pozorování dvou případně závislých náhodných vektorů X a Y. Definovat Kendall tau rank korelační koeficient tak jako
kde je počet shodných párů a je počet nesouhlasných párů. Somers ' D z Y s ohledem na X je definován jako .[2] Všimněte si, že Kendallův tau je symetrický X a Yvzhledem k tomu, že Somers D je asymetrický v X a Y.
Tak jako kvantifikuje počet párů s nerovným X hodnoty, Somers ' D je rozdíl mezi počtem shodných a nesouhlasných párů vydělený počtem párů s X hodnoty v páru jsou nerovné.
Somers ' D k distribuci
Nechť dvě nezávislé dvojí proměnné náhodné proměnné a mají stejné rozdělení pravděpodobnosti . Somers znovu D, která měří pořadové sdružení náhodných proměnných X a Y v , lze definovat pomocí Kendall je tau
nebo rozdíl mezi pravděpodobností shody a nesouladu. Somers ' D z Y s ohledem na X je definován jako . Tím pádem, je rozdíl mezi dvěma odpovídajícími pravděpodobnostmi podmíněný X hodnoty se nerovnají X má spojité rozdělení pravděpodobnosti, pak a Kendallova tau a Somersova D shodovat se. Somers ' D normalizuje Kendallovo tau pro možné hromadné body proměnné X.
Li X a Y jsou binární s hodnotami 0 a 1, pak Somersova D je rozdíl mezi dvěma pravděpodobnostmi:
Somers ' D pro binárně závislé proměnné
V praxi Somers ' D se nejčastěji používá, když závislá proměnná Y je binární proměnná,[2] tj. pro binární klasifikace nebo predikce binárních výsledků včetně binární výběrové modely v ekonometrii. Metody montáže takových modelů zahrnují logistické a probitová regrese.
Ke kvantifikaci kvality těchto modelů lze použít několik statistik: oblast pod provozní charakteristika přijímače (ROC) křivka, Goodman a Kruskal gama, Kendall's tau (Tau-a), Somers ' Datd. Somers “ D je pravděpodobně nejpoužívanější z dostupných statistik řadových asociací.[3] Totožné s Giniho koeficient, Somers ' D souvisí s plocha pod křivkou provozních charakteristik přijímače (AUC),[2]
- .
V případě, že nezávislá (predikční) proměnná X je oddělený a závislá (výsledná) proměnná Y je binární, Somersova D rovná se
kde je počet ani shodných, ani nesouhlasných párů, které jsou vázány na proměnnou X a ne na proměnnou Y.
Příklad
Předpokládejme, že nezávislá (predikční) proměnná X bere tři hodnoty, 0.25, 0.5nebo 0.75a závislá (výsledná) proměnná Y bere dvě hodnoty, 0 nebo 1. Níže uvedená tabulka obsahuje pozorované kombinace X a Y:
X Y | 0.25 | 0.5 | 0.75 |
---|---|---|---|
0 | 3 | 5 | 2 |
1 | 1 | 7 | 6 |
Počet shodných párů se rovná
Počet nesouhlasných párů se rovná
Počet svázaných párů se rovná celkovému počtu párů minus shodné a nesouhlasné páry
Takže Somers D rovná se
Reference
- ^ Somers, R. H. (1962). Msgstr "Nová asymetrická míra asociace pro řadové proměnné". Americký sociologický přehled. 27 (6). doi:10.2307/2090408. JSTOR 2090408.
- ^ A b C d Newson, Roger (2002). „Parametry za„ neparametrickými “statistikami: Kendall's tau, Somers ' D a střední rozdíly “. Stata Journal. 2 (1): 45–64.
- ^ O'Connell, A. A. (2006). Modely logistické regrese pro proměnné řadové odezvy. Publikace SAGE.