Neparametrické statistiky - Nonparametric statistics
Neparametrické statistiky je pobočkou statistika to není založeno pouze na parametrizováno rodiny rozdělení pravděpodobnosti (běžnými příklady parametrů jsou průměr a rozptyl). Neparametrická statistika je založena na tom, že je distribuce zdarma nebo má specifikovanou distribuci, ale s nespecifikovanými parametry distribuce. Neparametrické statistiky zahrnují obojí deskriptivní statistika a statistická inference. Neparametrické testy se často používají, když jsou porušeny předpoklady parametrických testů.[1]
Definice
Pojem „neparametrická statistika“ byl mimo jiné nepřesně definován následujícími dvěma způsoby.
- První význam neparametrické pokrývá techniky, které se nespoléhají na data patřící do konkrétní parametrické rodiny pravděpodobnostních distribucí.
Mezi ně patří mimo jiné:
- distribuce zdarma metody, které se nespoléhají na předpoklady, že data jsou čerpána z dané parametrické rodiny rozdělení pravděpodobnosti. Jako takový je to opak parametrické statistiky.
- neparametrické statistiky (A statistický je definována jako funkce na vzorku; žádná závislost na a parametr ).
Statistiky objednávek, které vycházejí z hodnosti pozorování, je jedním příkladem takové statistiky.
Následující diskuse je převzata z Kendall.[2]
Statistické hypotézy se týkají chování pozorovatelných náhodných proměnných .... Například hypotéza (a), že normální rozdělení má specifikovaný průměr a rozptyl, je statistická; taková je hypotéza (b), že má danou střední, ale nespecifikovanou odchylku; taková je hypotéza (c), že distribuce je normální formy s nespecifikovaným průměrem i rozptylem; konečně je to také hypotéza (d), že dvě nespecifikovaná spojitá rozdělení jsou totožná.
Bylo si všimnuto, že v příkladech (a) a (b) bylo rozdělení, z něhož vycházejí pozorování, považováno za určitou formu (normální) a hypotéza se zcela týkala hodnoty jednoho nebo obou jeho parametrů. Taková hypotéza se ze zřejmých důvodů nazývá parametrické.
Hypotéza (c) měla jinou povahu, protože ve výpisu hypotézy nejsou specifikovány žádné hodnoty parametrů; můžeme rozumně nazvat takovou hypotézu neparametrické. Hypotéza (d) je také neparametrická, ale navíc ani neurčuje podkladovou formu distribuce a lze ji nyní rozumně nazvat bez distribuce. Bez ohledu na tyto rozdíly statistická literatura nyní běžně aplikuje označení „neparametrické“ na testovací postupy, které jsme právě nazvali „bez distribuce“, čímž ztrácí užitečnou klasifikaci.
- Druhý význam neparametrické zahrnuje techniky, které nepředpokládají, že struktura modelu je opravena. Typicky se model zvětšuje, aby vyhovoval složitosti dat. V těchto technikách jednotlivé proměnné jsou obvykle se předpokládá, že patří do parametrických distribucí, a jsou také vytvořeny předpoklady o typech spojení mezi proměnnými. Mezi tyto techniky patří mimo jiné:
- neparametrická regrese, což je modelování, při kterém je struktura vztahu mezi proměnnými zpracována neparametricky, ale přesto mohou existovat parametrické předpoklady o distribuci zbytků modelu.
- neparametrické hierarchické Bayesovské modely, například modely založené na Dirichletův proces, které umožňují počet latentní proměnné růst podle potřeby, aby se vešly do dat, ale tam, kde jednotlivé proměnné stále sledují parametrické distribuce, a dokonce i proces, který řídí rychlost růstu latentních proměnných, sleduje parametrické rozdělení.
Aplikace a účel
Neparametrické metody jsou široce používány ke studiu populací, které mají seřazené pořadí (například recenze filmů, které dostávají jednu až čtyři hvězdičky). Pokud mají data a., Může být nutné použít neparametrické metody hodnocení ale není jasné numerické interpretaci, například při hodnocení předvolby. Ve smyslu úrovně měření, neparametrické metody vedou k pořadová data.
Protože neparametrické metody vytvářejí méně předpokladů, je jejich použitelnost mnohem širší než u příslušných parametrických metod. Zejména je lze použít v situacích, kdy je o dané aplikaci známo méně. Také díky spoléhání se na méně předpokladů je více neparametrických metod robustní.
Dalším důvodem pro použití neparametrických metod je jednoduchost. V určitých případech, i když je použití parametrických metod oprávněné, může být použití neparametrických metod snazší. Kvůli této jednoduchosti a jejich větší robustnosti někteří statistici považují neparametrické metody za ponechání menšího prostoru pro nesprávné použití a nedorozumění.
Čím širší použitelnost a větší robustnost neparametrických testů je nákladné: v případech, kdy by byl vhodný parametrický test, mají neparametrické testy méně Napájení. Jinými slovy, k vyvození závěrů se stejnou mírou spolehlivosti může být zapotřebí větší velikost vzorku.
Neparametrické modely
Neparametrické modely se liší od parametrické modely, ve kterých není specifikována struktura modelu a priori ale místo toho se určuje z údajů. Termín neparametrické To neznamená, že takové modely zcela postrádají parametry, ale že počet a povaha parametrů jsou flexibilní a nejsou předem stanoveny.
- A histogram je jednoduchý neparametrický odhad rozdělení pravděpodobnosti.
- Odhad hustoty jádra poskytuje lepší odhady hustoty než histogramy.
- Neparametrická regrese a semiparametrická regrese metody byly vyvinuty na základě jádra, splajny, a vlnky.
- Analýza obálky dat poskytuje koeficienty účinnosti podobné těm, které získaly vícerozměrná analýza bez jakéhokoli distribučního předpokladu.
- KNN klasifikujte neviditelnou instanci na základě K bodů v tréninkové sadě, které jsou k ní nejblíže.
- A podporovat vektorový stroj (s Gaussovým jádrem) je neparametrický klasifikátor s velkou marží.
- Metoda momentů (statistika) s polynomiálním rozdělením pravděpodobnosti.
Metody
Neparametrické (nebo bez distribuce) inferenční statistické metody jsou matematické postupy pro testování statistických hypotéz, které na rozdíl od parametrické statistiky, nevytvářejte žádné předpoklady o rozdělení pravděpodobnosti posuzovaných proměnných. Mezi nejčastěji používané testy patří
- Analýza podobností
- Anderson – Darlingův test: testuje, zda je vzorek odebrán z dané distribuce
- Statistické metody bootstrapu: odhaduje přesnost / rozdělení vzorkování statistiky
- Cochran's Q: testuje, zda k ošetření v randomizovaných blokových vzorech s výsledky 0/1 mají stejné účinky
- Cohenova kappa: měří dohodu mezi hodnotiteli pro kategorické položky
- Friedmanova obousměrná analýza rozptylu podle hodností: testy zda k ošetření v randomizovaných blokových vzorech mají stejné účinky
- Kaplan – Meier: odhaduje funkci přežití z celoživotních dat, modeluje cenzuru
- Kendall je tau: měří statistickou závislost mezi dvěma proměnnými
- Kendall's W: míra mezi 0 a 1 dohody mezi hodnotiteli
- Kolmogorov – Smirnovův test: testuje, zda je vzorek odebrán z dané distribuce nebo zda jsou odebrány dva vzorky ze stejné distribuce
- Kruskal – Wallisova jednosměrná analýza rozptylu podle řad: testuje, zda jsou ze stejné distribuce odebrány> 2 nezávislé vzorky
- Kuiperův test: testuje, zda je vzorek odebrán z dané distribuce, citlivý na cyklické variace, jako je den v týdnu
- Logrankův test: porovnává distribuci přežití dvou cenzurovaných vzorků se zkosením vpravo
- Mann – Whitney U nebo Wilcoxonův test součtu: testuje, zda jsou odebrány dva vzorky ze stejného rozdělení ve srovnání s danou alternativní hypotézou.
- McNemarův test: testuje, zda jsou v kontingenčních tabulkách 2 × 2 s dichotomickým znakem a párovými páry subjektů okrajové frekvence řádků a sloupců stejné
- Střední test: testuje, zda jsou dva vzorky odebrány z distribucí se stejnými mediány
- Pitmanova permutační zkouška: test statistické významnosti, který poskytuje přesné výsledky p hodnot zkoumáním všech možných přeskupení štítků
- Hodnocení produktů: detekuje diferenciálně exprimované geny v replikovaných mikromaticových experimentech
- Test Siegel – Tukey: testy na rozdíly v měřítku mezi dvěma skupinami
- Podepsat test: testuje, zda jsou vzorky párových párů čerpány z distribucí se stejnými mediány
- Spearmanovův korelační koeficient: měří statistickou závislost mezi dvěma proměnnými pomocí monotónní funkce
- Test hranatých řad: testuje rovnost odchylek ve dvou nebo více vzorcích
- Test Tukey – Duckworth: testuje rovnost dvou distribucí pomocí řad
- Wald-Wolfowitzův test: testuje, zda jsou prvky sekvence vzájemně nezávislé / náhodné
- Wilcoxonův podepsaný test: testuje, zda jsou vzorky párových párů čerpány z populací s různými průměrnými hodnotami
Dějiny
Rané neparametrické statistiky zahrnují medián (13. století nebo dříve, použití v odhadu od Edward Wright, 1599; vidět Medián § historie ) a podepsat test podle John Arbuthnot (1710) při analýze poměr lidského pohlaví při narození (viz Známkový test § Historie ).[3][4]
Viz také
- Neparametrický interval spolehlivosti založený na CDF
- Parametrické statistiky
- Převzorkování (statistika)
- Semiparametrický model
Poznámky
- ^ Pearce, J; Derrick, B (2019). „Předběžné testování: Ďábel statistik?“. Reinvention: Mezinárodní žurnál vysokoškoláckého výzkumu. 12 (2). doi:10.31273 / reinvention.v12i2.339.
- ^ Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A — Classical Inference and the Linear Model, šesté vydání, §20.2–20.3 (Arnold ).
- ^ Conover, W. J. (1999), „Kapitola 3.4: Test znamení“, Praktická neparametrická statistika (Třetí vydání), Wiley, str. 157–176, ISBN 0-471-16068-7
- ^ Sprent, P. (1989), Aplikované neparametrické statistické metody (Druhé vydání), Chapman & Hall, ISBN 0-412-44980-3
Obecné odkazy
- Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011). „Neparametrické testy úplných dat“, ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5.
- Corder, G. W .; Foreman, D. I. (2014). Neparametrická statistika: podrobný přístup. Wiley. ISBN 978-1118840313.
- Gibbons, Jean Dickinson; Chakraborti, Subhabrata (2003). Neparametrický statistický závěr, 4. vyd. CRC Press. ISBN 0-8247-4052-1.
- Hettmansperger, T. P .; McKean, J. W. (1998). Robustní neparametrické statistické metody. Kendall's Library of Statistics. 5 (První vydání). Londýn: Edward Arnold. New York: John Wiley & Sons. ISBN 0-340-54937-8. PAN 1604954. taky ISBN 0-471-19479-4.
- Hollander M., Wolfe D.A., Chicken E. (2014). Neparametrické statistické metody, John Wiley & Sons.
- Sheskin, David J. (2003) Příručka parametrických a neparametrických statistických postupů. CRC Press. ISBN 1-58488-440-1
- Wasserman, Larry (2007). Všechny neparametrické statistikySpringer. ISBN 0-387-25145-6.