Vícerozměrný odhad hustoty jádra - Multivariate kernel density estimation
Odhad hustoty jádra je neparametrické technika pro odhad hustoty tj. odhad funkce hustoty pravděpodobnosti, což je jedna ze základních otázek v statistika. Lze to považovat za zobecnění histogram odhad hustoty se zlepšenými statistickými vlastnostmi. Kromě histogramů zahrnují i jiné typy odhadu hustoty parametrické, spline, vlnka a Fourierova řada. Odhady hustoty jádra byly poprvé zavedeny ve vědecké literatuře pro univariate údaje v 50. a 60. letech[1][2] a následně byly široce přijaty. Brzy bylo zjištěno, že analogické odhady pro data s více proměnnými budou důležitým doplňkem statistika s více proměnnými. Na základě výzkumu provedeného v 90. a 90. letech 20. století vícerozměrný odhad hustoty jádra dosáhla úrovně dospělosti srovnatelné s jejími jednorozměrnými protějšky.[3]
Motivace
Bereme ilustraci syntetický bivariate datová sada 50 bodů pro ilustraci konstrukce histogramů. To vyžaduje výběr kotevního bodu (levý dolní roh mřížky histogramu). Pro histogram vlevo zvolíme (-1,5; -1,5): pro ten pravý posuneme kotevní bod o 0,125 v obou směrech na (-1 1,625, -1 1,625). Oba histogramy mají binwidth 0,5, takže jakékoli rozdíly jsou způsobeny pouze změnou kotevního bodu. Barevné označení udává počet datových bodů, které spadají do koše: 0 = bílá, 1 = bledě žlutá, 2 = jasně žlutá, 3 = oranžová, 4 = červená. Zdá se, že levý histogram označuje, že horní polovina má vyšší hustotu než dolní polovina, zatímco obrácený je případ pravého histogramu, což potvrzuje, že histogramy jsou vysoce citlivé na umístění kotevního bodu.[4]
Jedním z možných řešení tohoto problému s umístěním kotevního bodu je úplné odstranění binningové mřížky histogramu. Na levém obrázku níže je jádro (představované šedými čarami) vycentrováno v každém z 50 datových bodů výše. Výsledek sečtení těchto jader je uveden na správném obrázku, což je odhad hustoty jádra. Nejvýraznějším rozdílem mezi odhady hustoty jádra a histogramy je to, že první jsou snadněji interpretovatelné, protože neobsahují artefakty vyvolané binningovou mřížkou. Barevné obrysy odpovídají nejmenší oblasti, která obsahuje příslušnou pravděpodobnostní hmotnost: červená = 25%, oranžová + červená = 50%, žlutá + oranžová + červená = 75%, což znamená, že jedna centrální oblast obsahuje nejvyšší hustotu.
Cílem odhadu hustoty je odebrat konečný vzorek dat a učinit závěry o základní funkci hustoty pravděpodobnosti všude, včetně případů, kdy nejsou pozorována žádná data. Při odhadu hustoty jádra je příspěvek každého datového bodu vyhlazen z jednoho bodu do oblasti prostoru, který jej obklopuje. Agregace individuálně vyhlazených příspěvků poskytuje celkový obraz o struktuře dat a jejich hustotní funkci. V dalších podrobnostech ukážeme, že tento přístup vede k rozumnému odhadu funkce podkladové hustoty.
Definice
Předchozí obrázek je grafickým znázorněním odhadu hustoty jádra, který nyní definujeme přesným způsobem. Nechat X1, X2, ..., Xn být vzorek z d-měnit náhodné vektory čerpané ze společné distribuce popsané v funkce hustoty ƒ. Odhad hustoty jádra je definován jako
kde
- X = (X1, X2, …, Xd)T, Xi = (Xi1, Xi2, …, Xid)T, i = 1, 2, …, n jsou d-vektory;
- H je šířka pásma (nebo vyhlazování) d × d matice, která je symetrický a pozitivní určitý;
- K. je jádro funkce, která je symetrická vícerozměrná hustota;
- .
Volba funkce jádra K. není rozhodující pro přesnost odhadů hustoty jádra, proto používáme standard vícerozměrný normální jádro v celém: , kde H hraje roli kovarianční matice. Na druhou stranu volba matice šířky pásma H je nejdůležitějším faktorem ovlivňujícím jeho přesnost, protože řídí množství a orientaci indukovaného vyhlazování.[5]:36–39 To, že matice šířky pásma také indukuje orientaci, je základní rozdíl mezi odhadem vícerozměrné hustoty jádra od jejího jednorozměrného analogu, protože orientace není definována pro 1D jádra. To vede k volbě parametrizace této matice šířky pásma. Tři hlavní třídy parametrizace (ve vzestupném pořadí složitosti) jsou S, třída kladných skalárů krát matice identity; D, úhlopříčné matice s kladnými položkami na hlavní úhlopříčce; a F, symetrické pozitivní určité matice. The S jádra třídy mají stejné množství vyhlazování aplikované ve všech směrech souřadnic, D jádra umožňují různé úrovně vyhlazení v každé ze souřadnic a F jádra umožňují libovolné množství a orientaci vyhlazení. Historicky S a D jádra jsou z výpočetních důvodů nejrozšířenější, ale výzkum ukazuje, že důležitých zisků v přesnosti lze dosáhnout pomocí obecnějších F třídní jádra.[6][7]
Optimální výběr šířky pásma matice
Nejčastěji používaným kritériem optimality pro výběr matice šířky pásma je MISE nebo střední integrovaná čtvercová chyba
Toto obecně nemá a uzavřený výraz, takže je obvyklé používat jeho asymptotickou aproximaci (AMISE) jako proxy
kde
- , s R(K.) = (4π)−d/2 když K. je normální jádro
- ,
- s Jád být d × d matice identity, s m2 = 1 pro normální jádro
- D2ƒ je d × d Hessenská matice parciálních derivací druhého řádu z ƒ
- je d2 × d2 matice integrovaných parciálních derivací čtvrtého řádu z ƒ
- vec je vektorový operátor, který stohuje sloupce matice do jednoho vektoru, např.
Kvalita přiblížení AMISE k MISE[5]:97 darováno
kde Ó označuje obvyklé malá o notace. Heuristicky toto tvrzení naznačuje, že AMISE je „dobrá“ aproximace MISE jako velikosti vzorku n → ∞.
Je možné ukázat, že jakýkoli přiměřený volič šířky pásma H má H = Ó(n−2/(d+4)) Kde velká O notace se aplikuje po prvcích. Dosazením do vzorce MISE se získá optimální MISE Ó(n−4/(d+4)).[5]:99–100 Tak jako n → ∞, MISE → 0, tj. Odhad hustoty jádra konverguje do středního čtverce a tedy také v pravděpodobnosti skutečné hustoty F. Tyto režimy konvergence jsou potvrzením tvrzení v části motivace, že metody jádra vedou k odhadům přiměřené hustoty. Ideální optimální volič šířky pásma je
Protože tento ideální volič obsahuje funkci neznámé hustoty ƒ, nelze jej použít přímo. Mnoho různých druhů datových selektorů šířky pásma vychází z různých odhadů AMISE. Zaměřujeme se na dvě třídy selektorů, které se v praxi ukázaly jako nejpoužívanější: vyhlazená křížová validace a selektory zásuvných modulů.
Zapojit
Odhad plug-in (PI) AMISE je vytvořen nahrazením Ψ4 jeho odhadcem
kde . Tím pádem je volič doplňků.[8][9] Tyto reference také obsahují algoritmy pro optimální odhad matice šířky pilotního pásma G a stanovit to konverguje v pravděpodobnosti na HAMISE.
Vyhlazená křížová validace
Vyhlazená křížová validace (SCV) je podmnožinou větší třídy křížová validace techniky. Odhad SCV se liší od odhadu zásuvného modulu ve druhém semestru
Tím pádem je volič SCV.[9][10]Tyto odkazy také obsahují algoritmy pro optimální odhad matice šířky pilotního pásma G a stanovit to konverguje v pravděpodobnosti k HAMISE.
Pravidlo
Silvermanovo pravidlo naznačuje použití kde je směrodatná odchylka i-té proměnné a . Scottovo pravidlo je .
Asymptotická analýza
V sekci výběru optimální šířky pásma jsme představili MISE. Jeho konstrukce se opírá o očekávaná hodnota a rozptyl odhadu hustoty[5]:97
kde je konvoluce operátor mezi dvěma funkcemi a
Aby tyto dva výrazy byly dobře definované, požadujeme, aby všechny prvky H mají tendenci k 0 a tamto n−1 |H|−1/2 má tendenci k 0 jako n inklinuje k nekonečnu. Za předpokladu těchto dvou podmínek vidíme, že očekávaná hodnota má sklon ke skutečné hustotě F tj. odhad hustoty jádra je asymptotický objektivní; a že rozptyl má sklon k nule. Pomocí standardního rozkladu střední kvadratické hodnoty
máme, že MSE má tendenci k 0, z čehož vyplývá, že odhad hustoty jádra je (střední čtverec) konzistentní, a proto s pravděpodobností konverguje ke skutečné hustotě F. Míra konvergence MSE na 0 je nutně stejná jako výše uvedená míra MISE Ó(n−4 / (d + 4)), odtud tedy míra pokrytí odhadu hustoty na F je Óstr(č−2/(d+4)) kde Óstr označuje pořadí v pravděpodobnosti. Tím se stanoví bodová konvergence. Funkční krytí je stanoveno obdobně zvážením chování MISE a konstatováním, že při dostatečné pravidelnosti nemá integrace vliv na míry konvergence.
U uvažovaných selektorů šířky pásma založených na datech je cílem matice šířky pásma AMISE. Říkáme, že datový selektor konverguje k selektoru AMISE relativní rychlostí Óstr(n−α), α > 0 pokud
Bylo zjištěno, že plug-in a vyhlazené selektory křížové validace (vzhledem k jediné šířce pásma pilota G) oba konvergují relativní rychlostí Óstr(n−2/(d+6)) [9][11] tj. oba tyto datové selektory jsou konzistentní odhady.
Odhad hustoty s maticí s plnou šířkou pásma
The ks balení[12] v R implementuje doplňky plug-in a vyhlazené křížové ověření (mimo jiné). Tato datová sada (zahrnutá v základní distribuci R) obsahuje 272 záznamů se dvěma měřeními: dobu trvání erupce (minuty) a dobu čekání do další erupce (minut) Gejzír Old Faithful v Yellowstonském národním parku, USA.
Fragment kódu vypočítá odhad hustoty jádra pomocí matice šířky pásma modulu plug-in