Bayesovské informační kritérium - Bayesian information criterion - Wikipedia
v statistika, Bayesovské informační kritérium (BIC) nebo Schwarzovo informační kritérium (taky SIC, SBC, SBIC) je kritériem pro výběr modelu mezi konečnou sadou modelů; upřednostňuje se model s nejnižším BIC. Je částečně založen na funkce pravděpodobnosti a úzce souvisí s Informační kritérium Akaike (AIC).
Při montáži modelů je možné zvýšit pravděpodobnost přidáním parametrů, ale může to mít za následek nadměrné vybavení. Jak BIC, tak AIC se pokoušejí vyřešit tento problém zavedením trestního termínu pro počet parametrů v modelu; trestní období je v BIC větší než v AIC.
BIC byl vyvinut Gideonem E. Schwarzem a publikován v článku z roku 1978,[1] kde dal Bayesian argument pro jeho přijetí.
Definice
BIC je formálně definován jako[2][A]
kde
- = maximální hodnota funkce pravděpodobnosti modelu , tj. , kde jsou hodnoty parametrů, které maximalizují funkci pravděpodobnosti;
- = pozorovaná data;
- = počet datových bodů v , počet pozorování nebo ekvivalentně velikost vzorku;
- = počet parametry odhaduje model. Například v vícenásobná lineární regrese, odhadované parametry jsou průsečík, parametry sklonu a konstantní rozptyl chyb; tím pádem, .
Konishi a Kitagawa[4]:217 odvodit BIC k aproximaci distribuce dat, integraci parametrů pomocí Laplaceova metoda, počínaje následujícím modelový důkaz:
kde je předchozí pro pod modelem .
Protokol (pravděpodobnost), , se poté rozšíří do druhého řádu Taylor série o MLE, , za předpokladu, že je dvakrát diferencovatelný takto:
kde je průměr pozorované informace na jedno pozorování, a připravit () označuje transpozici vektoru . Do té míry je zanedbatelný a je relativně lineární blízko , můžeme se integrovat získat následující:
Tak jako zvyšuje, můžeme ignorovat a jak jsou . Tím pádem,
kde BIC je definován výše, a buď (a) je Bayesovský zadní režim, nebo (b) používá MLE a předchozí má nenulový sklon na MLE. Pak zadní
Vlastnosti
![]() | Tato sekce potřebuje další citace pro ověření.Listopadu 2011) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
- Je nezávislý na předchozím.
- Může měřit účinnost parametrizovaného modelu z hlediska predikce dat.
- Penalizuje složitost modelu, kde složitost odkazuje na počet parametrů v modelu.
- To je přibližně stejné jako minimální délka popisu kritérium, ale se záporným znaménkem.
- Lze jej použít k výběru počtu klastrů podle vnitřní složitosti přítomné v konkrétní datové sadě.
- Úzce souvisí s dalšími kritérii pravděpodobnosti, jako je penalizovaná Informační kritérium odchylky a Informační kritérium Akaike.
Omezení
BIC trpí dvěma hlavními omezeními[5]
- výše uvedená aproximace je platná pouze pro velikost vzorku mnohem větší než číslo parametrů v modelu.
- BIC nemůže zpracovat složité kolekce modelů jako při výběru proměnné (nebo výběr funkcí ) problém ve vysoké dimenzi.[5]
Gaussův speciální případ
Za předpokladu, že chyby nebo poruchy modelu jsou nezávislé a identicky distribuované podle a normální distribuce a že okrajová podmínka, že derivát zaznamenat pravděpodobnost s ohledem na skutečnou odchylku je nula, stane se (až do aditivní konstanty, což záleží jen na n a ne na modelu):[6]
kde je odchylka chyby. Rozptyl chyb je v tomto případě definován jako
který je zkreslený odhad pro skutečnou odchylku.
Z hlediska zbytkový součet čtverců (RSS) BIC je
Při testování více lineárních modelů proti nasycenému modelu lze BIC přepsat z hlediskadeviace tak jako:[7]
kde je počet parametrů modelu v testu.
Při výběru z několika modelů je preferován model s nejnižším BIC. BIC se zvyšuje funkce odchylky chyby a rostoucí funkce k. To znamená nevysvětlitelné rozdíly v závislá proměnná a počet vysvětlujících proměnných zvyšuje hodnotu BIC. Nižší BIC tedy znamená buď méně vysvětlujících proměnných, lepší shodu, nebo obojí. Síla důkazů proti modelu s vyšší hodnotou BIC lze shrnout takto:[7]
ΔBIC | Důkazy proti vyššímu BIC |
---|---|
0 až 2 | Nestojí za to víc než holá zmínka |
2 až 6 | Pozitivní |
6 až 10 | Silný |
>10 | Velmi silný |
BIC obecně penalizuje volné parametry silněji než Informační kritérium Akaike, i když to záleží na velikosti n a relativní velikost n ak.
Je důležité mít na paměti, že BIC lze použít k porovnání odhadovaných modelů, pouze když jsou numerické hodnoty závislé proměnné[b] jsou identické pro všechny srovnávané modely. Srovnávané modely nemusí být vnořené, na rozdíl od případu, kdy jsou modely porovnávány pomocí F-test nebo a test poměru pravděpodobnosti.[Citace je zapotřebí ]
Viz také
- Informační kritérium Akaike
- Bayesovské srovnání modelů
- Informační kritérium odchylky
- Informační kritérium Hannan – Quinn
- Jensen – Shannonova divergence
- Kullback – Leiblerova divergence
- Minimální délka zprávy
Poznámky
- ^ AIC, AICc a BIC definované Claeskensem a Hjortem[3] jsou negativy negativ definovaných v tomto článku a ve většině ostatních standardních odkazů.
- ^ Závislá proměnná se také nazývá a proměnná odezvy nebo výsledná proměnná. Vidět Regresní analýza.
Reference
- ^ Schwarz, Gideon E. (1978), „Odhad dimenze modelu“, Annals of Statistics, 6 (2): 461–464, doi:10.1214 / aos / 1176344136, PAN 0468014.
- ^ Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). "'Všechny modely se mýlí ... ': úvod k nejistotě modelu " (PDF). Statistica Neerlandica. 66 (3): 217–236. doi:10.1111 / j.1467-9574.2012.00530.x.
- ^ Claeskens, G.; Hjort, N.L. (2008), Výběr modelu a průměrování modelu, Cambridge University Press
- ^ Konishi, Sadanori; Kitagawa, Genshiro (2008). Informační kritéria a statistické modelování. Springer. ISBN 978-0-387-71886-6.
- ^ A b Giraud, C. (2015). Úvod do vysoce dimenzionální statistiky. Chapman & Hall / CRC. ISBN 9781482237948.
- ^ Priestley, M.B. (1981). Spektrální analýza a časové řady. Akademický tisk. ISBN 978-0-12-564922-3. (str. 375).
- ^ A b Kass, Robert E .; Raftery, Adrian E. (1995), "Bayes Factors", Journal of the American Statistical Association, 90 (430): 773–795, doi:10.2307/2291091, ISSN 0162-1459, JSTOR 2291091.
Další čtení
- Bhat, H. S .; Kumar, N (2010). „O odvození Bayesovského informačního kritéria“ (PDF). Archivovány od originál (PDF) dne 28. března 2012. Citovat deník vyžaduje
| deník =
(Pomoc) - Findley, D. F. (1991). "Protiklady k šetrnosti a BIC". Annals of the Institute of Statistical Mathematics. 43 (3): 505–514. doi:10.1007 / BF00053369.
- Kass, R.E .; Wasserman, L. (1995). "Referenční Bayesianův test pro vnořené hypotézy a jeho vztah ke Schwarzovu kritériu". Journal of the American Statistical Association. 90 (431): 928–934. doi:10.2307/2291327. JSTOR 2291327.
- Liddle, A. R. (2007). Msgstr "Informační kritéria pro výběr astrofyzikálního modelu". Měsíční oznámení Královské astronomické společnosti. 377 (1): L74 – L78. arXiv:astro-ph / 0701113. Bibcode:2007MNRAS.377L..74L. doi:10.1111 / j.1745-3933.2007.00306.x.
- McQuarrie, A. D. R .; Tsai, C.-L. (1998). Výběr modelu regrese a časové řady. World Scientific.