Kuchařská vzdálenost - Cooks distance - Wikipedia
v statistika, Cookova vzdálenost nebo Cookovy D je běžně používaný odhad vliv datového bodu při provádění nejmenších čtverců regresní analýza.[1] V praxi obyčejné nejmenší čtverce Analýza, Cookova vzdálenost může být použita několika způsoby: k označení vlivných datových bodů, které stojí za to zkontrolovat platnost; nebo k označení oblastí návrhového prostoru, kde by bylo dobré získat více datových bodů. Je pojmenována po americkém statistikovi R. Dennis Cook, který představil koncept v roce 1977.[2][3]
Definice
Datové body s velkými zbytky (odlehlé hodnoty ) a / nebo vysoká vliv může zkreslit výsledek a přesnost regrese. Cookova vzdálenost měří účinek vymazání daného pozorování. Body s velkou Cookovou vzdáleností jsou považovány za zásluhy bližšího prozkoumání v analýze.
Pro algebraický výraz nejprve definujte
kde je chybový termín, je matice koeficientu, je počet kovariancí nebo prediktorů pro každé pozorování a je návrhová matice včetně konstanty. The nejmenší čtverce odhadovatel pak je , a následně přizpůsobené (předpokládané) hodnoty pro průměr z jsou
kde je projekční matice (nebo klobouková matice). The -tý diagonální prvek , dána ,[4] je známý jako vliv z -té pozorování. Podobně -tý prvek zbytkového vektoru je označen .
Cookova vzdálenost pozorování je definován jako součet všech změn v regresním modelu při pozorování je z ní odstraněn[5]
kde je hodnota přizpůsobené odezvy získaná při vyloučení , a je střední čtvercová chyba regresního modelu.[6]
Ekvivalentně to lze vyjádřit pomocí pákového efektu[5] ():
Detekce vysoce vlivných pozorování
Existují různé názory na to, jaké mezní hodnoty se mají použít pro vysoce špinění vlivné body. Protože Cookova vzdálenost je v metrice F rozdělení s a (jak je definováno pro konstrukční matici výše) stupně volnosti, střední bod (tj. ) lze použít jako rozhraní.[7] Protože tato hodnota je blízko 1 pro velké , jednoduchá provozní směrnice z bylo navrženo.[8]Mějte na paměti, že Cookova míra vzdálenosti ne vždy správně identifikuje vlivná pozorování.[9]
Vztah k dalším vlivovým opatřením (a interpretaci)
lze vyjádřit pomocí Vliv[5] () a čtverec vnitřně Studentizovaný zbytek (), jak následuje:
Výhodou poslední formulace je, že jasně ukazuje vztah mezi a na (zatímco p a n jsou stejná pro všechna pozorování). Li je pak velký (pro neextrémní hodnoty ) se zvýší . Li je blízko 0 než bude malý, i když pokud je tedy téměř 1 bude velmi velký (pokud tj. že pozorování není přesně na regresní přímce, která byla namontována bez pozorování ).
je spojen s ZÁVADY prostřednictvím následujícího vztahu (všimněte si, že je navenek studentizovaný zbytek a jsou definovány tady ):
lze interpretovat jako vzdálenost, kterou se odhady pohybují v rámci elipsoidu spolehlivosti, který představuje oblast věrohodných hodnot parametrů.[je zapotřebí objasnění ] To ukazuje alternativní, ale ekvivalentní zastoupení Cookovy vzdálenosti, pokud jde o změny v odhadech regresních parametrů mezi případy, kdy je konkrétní pozorování buď zahrnuto, nebo vyloučeno z regresní analýzy.
Softwarové implementace
Mnoho programů a statistických balíčků, například R, Krajta atd., zahrnují implementace Cookovy vzdálenosti.
Jazyk / Program | Funkce | Poznámky |
---|---|---|
R | kuchařská vzdálenost (model, ...) | Vidět [1] |
Krajta | CooksDistance (). Fit (X, y) | Vidět [2] |
Rozšíření
Měření vysokého dimenzionálního vlivu (HIM) je alternativou k Cookově vzdálenosti, kdy (tj .: více prediktorů než pozorování).[10] Zatímco Cookova vzdálenost kvantifikuje vliv individuálního pozorování na odhad koeficientu regrese nejmenších čtverců, HIM měří vliv pozorování na mezní korelace.
Viz také
Reference
- ^ Mendenhall, William; Sincich, Terry (1996). Druhý kurz statistiky: Regresní analýza (5. vydání). Horní sedlo, NJ: Prentice-Hall. str. 422. ISBN 0-13-396821-9.
Míra celkového vlivu odlehlého pozorování má na odhad koeficienty navrhl R. D. Cook (1979). Cookova vzdálenost, Di, se počítá ...
- ^ Cook, R. Dennis (únor 1977). "Detekce vlivných pozorování v lineární regresi". Technometrics. Americká statistická asociace. 19 (1): 15–18. doi:10.2307/1268249. JSTOR 1268249. PAN 0436478.
- ^ Cook, R. Dennis (březen 1979). "Vlivná pozorování v lineární regresi". Journal of the American Statistical Association. Americká statistická asociace. 74 (365): 169–174. doi:10.2307/2286747. hdl:11299/199280. JSTOR 2286747. PAN 0529533.
- ^ Hayashi, Fumio (2000). Ekonometrie. Princeton University Press. 21–23. ISBN 1400823838.
- ^ A b C „Cookova vzdálenost“.
- ^ „Statistics 512: Applied Linear Models“ (PDF). Purdue University. Archivovány od originál (PDF) dne 30. 11. 2016. Citováno 2016-03-25.
- ^ Bollen, Kenneth A.; Jackman, Robert W. (1990). „Regrese Diagnostics: An Expository Treatment of Outliers and Influential Cases“. In Fox, John; Long, J. Scott (eds.). Moderní metody analýzy dat. Newbury Park, CA: Sage. str.266. ISBN 0-8039-3366-5.
- ^ Cook, R. Dennis; Weisberg, Sanford (1982). Zbytky a vliv v regresi. New York, NY: Chapman & Hall. hdl:11299/37076. ISBN 0-412-24280-X.
- ^ Kim, Myung Geun (31. května 2017). „Upozornění na využití Cookovy vzdálenosti“. Komunikace pro statistické aplikace a metody. 24 (3): 317–324. doi:10.5351 / csam.2017.24.3.317. ISSN 2383-4757.
- ^ Vysokodimenzionální míra vlivu
Další čtení
- Atkinson, Anthony; Riani, Marco (2000). „Diagnostika smazání“. Robustní diagnostika a regresní analýza. New York: Springer. s. 22–25. ISBN 0-387-95017-6.
- Heiberger, Richard M .; Holland, Burt (2013). „Statistika případů“. Statistická analýza a zobrazení dat. Springer Science & Business Media. 312–27. ISBN 9781475742848.
- Krasker, William S .; Kuh, Edwin; Welsch, Roy E. (1983). Msgstr "Odhad pro špinavá data a chybné modely". Příručka ekonometrie. 1. Elsevier. 651–698. doi:10.1016 / S1573-4412 (83) 01015-6. ISBN 9780444861856.
- Aguinis, Herman; Gottfredson, Ryan K .; Joo, Harry (2013). „Doporučení osvědčených postupů pro definování identifikace a zpracování odlehlých hodnot“. Metody organizačního výzkumu. Šalvěj. 16 (2): 270–301. doi:10.1177/1094428112470848. S2CID 54916947. Citováno 4. prosince 2015.