Důvěra a predikční pásma - Confidence and prediction bands
A pásmo spolehlivosti se používá v Statistická analýza reprezentovat nejistotu v odhadu křivky nebo funkce založené na omezených nebo hlučných datech. Podobně, a predikční pásmo se používá k reprezentaci nejistoty ohledně hodnoty nového datového bodu na křivce, ale podléhající šumu. Důvěryhodnost a predikční pásma se často používají jako součást grafické prezentace výsledků a regresní analýza.
Pásma důvěry úzce souvisí intervaly spolehlivosti, které představují nejistotu v odhadu jediné číselné hodnoty. „Protože intervaly spolehlivosti konstrukčně odkazují pouze na jeden bod, jsou užší (v tomto bodě) než pásmo spolehlivosti, které má v mnoha bodech držet současně.“[1]
Bodová a současná pásma spolehlivosti
Předpokládejme, že naším cílem je odhadnout funkci F(X). Například, F(X) může být podíl lidí konkrétního věku X kteří podporují daného kandidáta ve volbách. Li X se měří s přesností jednoho roku, můžeme pro každý věk vytvořit samostatný 95% interval spolehlivosti. Každý z těchto intervalů spolehlivosti pokrývá odpovídající skutečnou hodnotu F(X) s důvěrou 0,95. Dohromady tyto intervaly spolehlivosti tvoří a 95% bodové pásmo spolehlivosti pro F(X).
Z matematického hlediska je to bodové pásmo spolehlivosti s pravděpodobností pokrytí 1 -α splňuje následující podmínku zvlášť pro každou hodnotu X:
kde je bodový odhad F(X).
The pravděpodobnost současného pokrytí kolekce intervalů spolehlivosti je pravděpodobnost, že všechny pokryjí odpovídající skutečné hodnoty současně. Ve výše uvedeném příkladu je pravděpodobnost simultánního pokrytí pravděpodobnost, pro kterou jsou intervaly X = 18,19, ... všechny pokrývají jejich skutečné hodnoty (za předpokladu, že 18 je nejmladší věk, v němž může člověk volit). Pokud má každý interval jednotlivě pravděpodobnost pokrytí 0,95, je pravděpodobnost současného pokrytí obecně menší než 0,95. A 95% současné pásmo spolehlivosti je soubor intervalů spolehlivosti pro všechny hodnoty X v doméně F(X), který je konstruován tak, aby měl současnou pravděpodobnost pokrytí 0,95.
Z matematického hlediska simultánní pásmo spolehlivosti s pravděpodobností pokrytí 1 -α splňuje následující podmínku:
Téměř ve všech případech bude simultánní pásmo spolehlivosti širší než bodové pásmo spolehlivosti se stejnou pravděpodobností pokrytí. V definici bodového pásma spolehlivosti se tento univerzální kvantifikátor pohybuje mimo pravděpodobnostní funkci.
Pásma spolehlivosti v regresní analýze
Pásma důvěry se běžně vyskytují v regresní analýza.[2] V případě jednoduché regrese zahrnující jednu nezávislou proměnnou mohou být výsledky prezentovány ve formě grafu ukazujícího odhadovanou regresní linii spolu s bodovými nebo simultánními pásmy spolehlivosti. Běžně používané metody pro konstrukci simultánních pásem spolehlivosti v regresi jsou Bonferroni a Scheffé metody; vidět Postupy řízení míry chybovosti po rodině více.
Pásma spolehlivosti pro rozdělení pravděpodobnosti
Pásma důvěry lze sestavit na základě odhadů empirická distribuční funkce. Jednoduchá teorie umožňuje konstrukci bodových intervalů spolehlivosti, ale je také možné sestrojit simultánní pásmo spolehlivosti pro kumulativní distribuční funkci jako celek převrácením Kolmogorov-Smirnovův test, nebo pomocí neparametrických metod pravděpodobnosti.[3]
Další aplikace pásem spolehlivosti
Pásma spolehlivosti vznikají, kdykoli se statistická analýza zaměřuje na odhad funkce.
Pro odhady byly navrženy pásma spolehlivosti hustotní funkce, spektrální hustota funkce[4], kvantil funkce, scatterplot vyhlazuje, funkce přežití, a charakteristické funkce.[Citace je zapotřebí ]
Predikční pásma
Predikční pásma souvisí s predikční intervaly stejným způsobem, že pásma spolehlivosti souvisejí s intervaly spolehlivosti. Predikční pásma běžně vznikají při regresní analýze. Cílem predikčního pásma je pokrýt s předepsanou pravděpodobností hodnoty jednoho nebo více budoucích pozorování ze stejné populace, ze které byl daný soubor dat vzorkován. Stejně jako intervaly predikce jsou širší než intervaly spolehlivosti, budou pásma predikce širší než pásma spolehlivosti.
Z matematického hlediska predikční pásmo s pravděpodobností pokrytí 1 -α splňuje následující podmínku pro každou hodnotu X:
kde y* je pozorování převzaté z procesu generování dat v daném bodě X to je nezávislé na datech použitých ke konstrukci bodového odhadu a interval spolehlivosti w(X). Toto je bodový predikční interval. Bylo by možné sestrojit simultánní interval pro konečný počet nezávislých pozorování, například pomocí Bonferroniho metody k rozšíření intervalu o příslušnou částku.
Reference
- ^ 65 v W. Härdle, M. Müller, S. Sperlich, A. Werwatz (2004), Neparametrické a semiparametrické modely, Springer, ISBN 3540207228 „Archivovaná kopie“. Archivovány od originál dne 12. 4. 2013. Citováno 2013-02-06.CS1 maint: archivovaná kopie jako titul (odkaz),[1]
- ^ Liu, W; Lin S .; Piegorsch W.W. (2008). „Konstrukce přesných simultánních pásem spolehlivosti pro jednoduchý model lineární regrese“. Mezinárodní statistický přehled. 76 (1): 39–57. doi:10.1111 / j.1751-5823.2007.00027.x.
- ^ Owen, A. B. (1995). "Neparametrická pásma spolehlivosti pro distribuční funkci". Journal of the American Statistical Association. Americká statistická asociace. 90 (430): 516–521. doi:10.2307/2291062. JSTOR 2291062.
- ^ Neumann, M.H .; Paparoditis, E. (2008). "Simultánní pásma spolehlivosti při odhadu spektrální hustoty". Biometrika. 95 (2): 381. CiteSeerX 10.1.1.569.3978. doi:10.1093 / biomet / asn005.