Odhad hustoty - Density estimation
![]() | tento článek potřebuje další citace pro ověření.Srpna 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
![](http://upload.wikimedia.org/wikipedia/commons/thumb/5/5c/KernelDensityGaussianAnimated.gif/350px-KernelDensityGaussianAnimated.gif)
v pravděpodobnost a statistika,odhad hustoty je výstavba odhad, na základě pozorovaných data nepozorovatelného podkladu funkce hustoty pravděpodobnosti. Funkce nepozorovatelné hustoty je považována za hustotu, podle které je distribuována velká populace; data jsou obvykle považována za náhodný vzorek z této populace.
Používá se celá řada přístupů k odhadu hustoty, včetně Parzen okna a řada shlukování dat techniky, včetně vektorové kvantování. Nejzákladnější formou odhadu hustoty je změna měřítka histogram.
Příklad odhadu hustoty
![](http://upload.wikimedia.org/wikipedia/commons/thumb/3/37/P_glu_given_diabetes.png/360px-P_glu_given_diabetes.png)
![](http://upload.wikimedia.org/wikipedia/commons/thumb/b/b1/P_diabetes_given_glu.png/360px-P_diabetes_given_glu.png)
![](http://upload.wikimedia.org/wikipedia/commons/thumb/8/86/Glu_opt.png/360px-Glu_opt.png)
Budeme uvažovat záznamy o výskytu cukrovka. Následující text je doslovně citován z soubor dat popis:
- Populace žen, které byly nejméně 21 let staré, z Pima Bylo testováno indické dědictví a život poblíž Phoenixu v Arizoně diabetes mellitus podle Světová zdravotnická organizace kritéria. Údaje byly shromážděny americkým Národním institutem pro diabetes a choroby trávicího ústrojí a ledvin. Použili jsme 532 úplných záznamů.[1][2]
V tomto příkladu vytvoříme tři odhady hustoty pro „glu“ (plazma glukóza koncentrace), jeden podmiňovací způsob na přítomnosti diabetu, druhý podmíněn absencí diabetu a třetí nepodmíněn diabetem. Odhady podmíněné hustoty se poté použijí ke konstrukci pravděpodobnosti diabetu podmíněného „glu“.
Data „glu“ byla získána z balíčku MASS[3] z Programovací jazyk R.. Uvnitř R, ? Pima.tr a ? Pima.te poskytnout úplnější účet údajů.
The znamenat „glu“ v případech diabetu je 143,1 a standardní odchylka je 31,26. Průměr „glu“ v případech bez diabetu je 110,0 a standardní odchylka je 24,29. Z toho vidíme, že v tomto souboru dat je diabetes případy jsou spojeny s vyššími hladinami „glu“. To bude objasněno grafy funkcí odhadované hustoty.
První obrázek ukazuje odhady hustoty str(glu | diabetes = 1), str(glu | diabetes = 0) a str(glu). Odhady hustoty jsou odhady hustoty jádra pomocí Gaussova jádra. To znamená, že Gaussova hustotní funkce je umístěna v každém datovém bodě a součet hustotních funkcí je vypočítán v celém rozsahu dat.
Z hustoty „glu“ podmíněné cukrovkou můžeme získat pravděpodobnost cukrovky podmíněné „glu“ prostřednictvím Bayesovo pravidlo. Pro stručnost je „diabetes“ zkrácen „db“. v tomto vzorci.
Druhý obrázek ukazuje odhadovanou zadní pravděpodobnost str(cukrovka = 1 | glu). Z těchto údajů vyplývá, že zvýšená hladina „glu“ je spojena s cukrovkou.
Například scénář
Následující příkazy R vytvoří výše uvedené obrázky. Tyto příkazy lze zadat na příkazovém řádku pomocí vyjmutí a vložení.
knihovna(HMOTNOST)data(Pima.tr)data(Pima.te)Pima <- rbind (Pima.tr, Pima.te)lep <- Pima [, 'lepit']d0 <- Pima [, 'typ'] == 'Ne'd1 <- Pima [, 'typ'] == 'Ano'base.rate.d1 <- součet(d1) / (součet(d1) + součet(d0))hustota glu <- hustota (lep)hustota glu.d0 <- hustota (glu [d0])hustota glu.d1 <- hustota (glu [d1])glu.d0.f <- cca zábava(hustota glu.d0$X, hustota glu.d0$y)glu.d1.f <- cca zábava(hustota glu.d1$X, hustota glu.d1$y)p.d.given.glu <- funkce(lep, base.rate.d1){ p1 <- glu.d1.f(lep) * base.rate.d1 p0 <- glu.d0.f(lep) * (1 - base.rate.d1) p1 / (p0 + p1)}X <- 1:250y <- p.d.given.glu (X, base.rate.d1)spiknutí(X, y, typ='já', plk='Červené', xlab='lepit', ylab=„odhadovaný p (cukrovka | glu)“)spiknutí(hustota(glu [d0]), plk='modrý', xlab='lepit', ylab='odhad p (glu), p (glu | cukrovka), p (glu | ne cukrovka) “, hlavní=NA)řádky(hustota(glu [d1]), plk='Červené')
Všimněte si, že výše uvedený odhad podmíněné hustoty používá šířky pásma, které jsou optimální pro bezpodmínečné hustoty. Alternativně lze použít metodu Hall, Racine a Li (2004)[4] a balíček R np[5]pro automatický (datově řízený) výběr šířky pásma, který je optimální pro odhady podmíněné hustoty; viz viněta np[6] pro úvod do balíčku np. Následující R příkazy používají npcdens ()
funkce zajišťující optimální vyhlazení. Pamatujte, že faktorem je odpověď „Ano“ / „Ne“.
knihovna(np)fy.x <- npcdens(typ~lep, více=1, data=Pima)Pima.eval <- data.frame(typ=faktor("Ano"), lep=násl(min(Pima$lep), max(Pima$lep), délka=250)) spiknutí(X, y, typ='já', lty=2, plk='Červené', xlab='lepit', ylab=„odhadovaný p (cukrovka | glu)“)řádky(Pima.eval$lep, předpovědět(fy.x, nová data=Pima.eval), plk="modrý")legenda(0, 1, C(„Bezpodmínečná šířka pásma“, „Podmíněná šířka pásma“), plk=C("Červené", "modrý"), lty=C(2, 1))
Třetí obrázek používá optimální vyhlazení metodou Halla, Racina a Li[4] což naznačuje, že šířka pásma bezpodmínečné hustoty použitá na druhém obrázku výše poskytuje odhad podmíněné hustoty, který může být poněkud podhladený.
Aplikace a účel
Velmi přirozené použití odhadů hustoty je v neformálním zkoumání vlastností dané sady dat. Odhady hustoty mohou poskytnout cenný údaj o takových funkcích, jako je šikmost a multimodalita v datech. V některých případech přinesou závěry, které pak mohou být považovány za zjevně pravdivé, zatímco v jiných bude stačit nasměrovat cestu k další analýze a / nebo sběru dat.[7]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Gumbel_distribtion.png/300px-Gumbel_distribtion.png)
Důležitým aspektem statistik je často prezentace dat zpět klientovi za účelem vysvětlení a znázornění závěrů, které by případně mohly být získány jinými prostředky. Odhady hustoty jsou pro tento účel ideální, a to z jednoduchého důvodu, že jsou poměrně snadno srozumitelné pro nematematiky.
Další příklady ilustrující použití odhadů hustoty pro průzkumné a prezentační účely, včetně důležitého případu dvojrozměrných údajů.[9]
Odhad hustoty se také často používá v detekce anomálií nebo detekce novinky:[10] pokud pozorování leží v oblasti s velmi nízkou hustotou, je pravděpodobné, že se jedná o anomálii nebo novinku.
- v hydrologie the histogram a funkce odhadované hustoty srážek a údajů o vypouštění z řeky, analyzované pomocí a rozdělení pravděpodobnosti, se používají k získání přehledu o jejich chování a frekvenci výskytu.[11] Příklad je uveden na modrém obrázku.
Viz také
- Odhad hustoty jádra
- Střední integrovaná čtvercová chyba
- Histogram
- Vícerozměrný odhad hustoty jádra
- Odhad spektrální hustoty
- Vkládání distribucí do jádra
- Generativní model
- Aplikace statistik zakázek: Neparametrický odhad hustoty
- Přizpůsobení rozdělení pravděpodobnosti
Reference
- ^ "Diabetes in Pima Indian Women - R dokumentace".
- ^ Smith, J. W., Everhart, J. E., Dickson, W. C., Knowler, W. C. a Johannes, R. S. (1988). R. A. Greenes (ed.). „Použití algoritmu učení ADAP k předpovědi nástupu diabetes mellitus“. Sborník ze sympozia o počítačových aplikacích v lékařské péči (Washington, 1988). Los Alamitos, CA: 261–265. PMC 2245318.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ „Podporované funkce a datové sady pro Venables a Ripley's MASS“.
- ^ A b Peter Hall; Jeffrey S. Racine; Qi Li (2004). „Křížová validace a odhad hustot podmíněné pravděpodobnosti“. Journal of the American Statistical Association. 99 (468): 1015–1026. CiteSeerX 10.1.1.217.93. doi:10.1198/016214504000000548.
- ^ „Balíček np - Balíček R, který poskytuje celou řadu neparametrických a semiparametrických metod jádra, které bezproblémově zpracovávají kombinaci kontinuálních, neuspořádaných a uspořádaných faktorových datových typů.“.
- ^ Tristen Hayfield; Jeffrey S. Racine. „Balíček np“ (PDF).
- ^ Silverman, B. W. (1986). Odhad hustoty pro statistiku a analýzu dat. Chapman a Hall. ISBN 978-0412246203.
- ^ Kalkulačka pro rozdělení pravděpodobnosti a funkce hustoty
- ^ Geof H., Givens (2013). Výpočetní statistiky. Wiley. p. 330. ISBN 978-0-470-53331-4.
- ^ Pimentel, Marco A.F .; Clifton, David A .; Clifton, Lei; Tarassenko, Lionel (2. ledna 2014). "Recenze detekce novinek". Zpracování signálu. 99 (Červen 2014): 215–249. doi:10.1016 / j.sigpro.2013.12.026.
- ^ Ilustrace histogramů a funkcí hustoty pravděpodobnosti
Zdroje
- Brian D. Ripley (1996). Rozpoznávání vzorů a neuronové sítě. Cambridge: Cambridge University Press. ISBN 978-0521460866.
- Trevor Hastie, Robert Tibshirani a Jerome Friedman. Prvky statistického učení. New York: Springer, 2001. ISBN 0-387-95284-5. (Viz kapitola 6.)
- Qi Li a Jeffrey S. Racine. Neparametrická ekonometrie: teorie a praxe. Princeton University Press, 2007, ISBN 0-691-12161-3. (Viz kapitola 1.)
- D.W. Scott. Odhad hustoty s více proměnnými. Teorie, praxe a vizualizace. New York: Wiley, 1992.
- B.W. Silverman. Odhad hustoty. London: Chapman and Hall, 1986. ISBN 978-0-412-24620-3
externí odkazy
- CREEM: Centrum pro výzkum ekologických a environmentálních modelů Stahování bezplatných softwarových balíků pro odhad hustoty Vzdálenost 4 (z výzkumné jednotky pro hodnocení populace divoké zvěře "RUWPA") a Pramínek.
- Shrnutí obsahu úložiště UCI Machine Learning (Původní datový soubor 732 záznamů a další poznámky najdete v „Diabetesové databázi Pima Indians“.)
- MATLAB kód pro jednorozměrný a dvourozměrný odhad hustoty
- libAGF C ++ software pro variabilní odhad hustoty jádra.