Empirická distribuční funkce - Empirical distribution function
v statistika, an empirická distribuční funkce je distribuční funkce spojená s empirická míra a vzorek. Tento kumulativní distribuční funkce je kroková funkce který vyskočí o 1/n na každém z n datové body. Jeho hodnota při jakékoli zadané hodnotě měřené proměnné je zlomek pozorování měřené proměnné, které jsou menší nebo rovny zadané hodnotě.
Empirická distribuční funkce je odhad kumulativní distribuční funkce, která generovala body ve vzorku. Konverguje s pravděpodobností 1 k této podkladové distribuci podle Glivenkova – Cantelliho věta. Existuje řada výsledků pro kvantifikaci rychlosti konvergence empirické distribuční funkce k podkladové kumulativní distribuční funkci.
Definice
Nechat (X1, …, Xn) být nezávislé, identicky distribuované skutečné náhodné proměnné se společným kumulativní distribuční funkce F(t). Pak empirická distribuční funkce je definován jako[1][2]
kde je indikátor z událost A. Pro pevné t, indikátor je Bernoulliho náhodná proměnná s parametrem str = F(t); proto je binomická náhodná proměnná s znamenat nF(t) a rozptyl nF(t)(1 − F(t)). To z toho vyplývá je objektivní odhadce pro F(t).
V některých učebnicích je však definice uvedena jako[3][4]
Znamenat
The znamenat empirického rozdělení je nezaujatý odhad průměru distribuce populace.
což se běžněji označuje
Rozptyl
The rozptyl empirických distribučních časů je nestranný odhad variance rozptylu populace.
Průměrná čtvercová chyba
The střední čtvercová chyba pro empirické rozdělení je následující.
Kde je odhadce a neznámý parametr
Kvantily
Pro jakékoli skutečné číslo zápis (čti „strop a“) označuje nejmenší celé číslo větší nebo rovno . U libovolného reálného čísla a zápis (přečíst „floor of a“) označuje největší celé číslo menší nebo rovno .
Li není celé číslo, pak -tý kvantil je jedinečný a rovná se
Li je celé číslo, pak -tý kvantil není jedinečný a je to jakékoli reálné číslo takhle
Empirický medián
Li je liché, pak empirický medián je číslo
Li je sudé, pak empirický medián je číslo
Asymptotické vlastnosti
Protože poměr (n + 1)/n přistupuje k 1 jako n jde do nekonečna, asymptotické vlastnosti dvou výše uvedených definic jsou stejné.
Podle silný zákon velkého počtu, odhadce konverguje k F(t) tak jako n → ∞ téměř jistě, pro každou hodnotu t:[1]
tedy odhadce je konzistentní. Tento výraz potvrzuje bodovou konvergenci empirické distribuční funkce ke skutečné kumulativní distribuční funkci. Existuje silnější výsledek, který se nazývá Glivenkova – Cantelliho věta, který uvádí, že ke konvergenci dochází ve skutečnosti jednotně t:[5]
Sup-norma v tomto výrazu se nazývá Statistika Kolmogorov – Smirnov pro testování shody mezi empirickým rozdělením a předpokládaná funkce skutečné kumulativní distribuce F. jiný normální funkce zde lze rozumně použít místo nadnormy. Například L2-norma dává vzniknout Statistika Cramér – von Mises.
Asymptotickou distribuci lze dále charakterizovat několika různými způsoby. Nejprve teorém centrálního limitu tvrdí, že bodově, má asymptoticky normální rozdělení se standardem míra konvergence:[1]
Tento výsledek je rozšířen o Donskerova věta, který tvrdí, že empirický proces , zobrazeno jako funkce indexovaná pomocí , konverguje v distribuci v Skorokhod prostor do střední nuly Gaussův proces , kde B je standard Brownův most.[5] Kovarianční struktura tohoto gaussovského procesu je
Jednotnou rychlost konvergence v Donskerově větě lze kvantifikovat výsledkem známým jako Maďarské vkládání:[6]
Alternativně je míra konvergence lze také kvantifikovat z hlediska asymptotického chování sup-normy tohoto výrazu. Na tomto místě existuje počet výsledků, například Nerovnost Dvoretzky – Kiefer – Wolfowitz poskytuje vázané na ocasní pravděpodobnosti :[6]
Kolmogorov ve skutečnosti ukázal, že pokud kumulativní distribuční funkce F je spojitý, pak výraz konverguje v distribuci do , který má Kolmogorovova distribuce to nezávisí na formě F.
Další výsledek, který vyplývá z zákon iterovaného logaritmu, je to [6]
a
Intervaly spolehlivosti
Dle Nerovnost Dvoretzky – Kiefer – Wolfowitz interval, který obsahuje skutečný CDF, , s pravděpodobností je zadán jako
Podle výše uvedených mezí můžeme vykreslit empirické intervaly CDF, CDF a Confidence pro různá rozdělení pomocí kterékoli ze statistických implementací. Následuje syntaxe z Statsmodel pro vykreslení empirického rozdělení.
"""Empirické funkce CDF"""import numpy tak jako npz scipy.interpolate import interp1ddef _conf_set(F, alfa=0.05): šlechtici = len(F) epsilon = np.čtv(np.log(2.0 / alfa) / (2 * šlechtici)) dolní = np.klip(F - epsilon, 0, 1) horní = np.klip(F + epsilon, 0, 1) vrátit se dolní, hornítřída StepFunction: def __init__(já, X, y, ival=0.0, tříděny=Nepravdivé, boční="vlevo, odjet"): -li boční.dolní() ne v ["že jo", "vlevo, odjet"]: zpráva = "strana může nabývat hodnot 'vpravo' nebo 'vlevo'" vyzdvihnout ValueError(zpráva) já.boční = boční _X = np.asarray(X) _y = np.asarray(y) -li _X.tvar != _y.tvar: zpráva = „xay nemají stejný tvar“ vyzdvihnout ValueError(zpráva) -li len(_X.tvar) != 1: zpráva = „xay musí být jednorozměrné“ vyzdvihnout ValueError(zpráva) já.X = np.r_[-np.inf, _X] já.y = np.r_[ival, _y] -li ne tříděny: asort = np.argsort(já.X) já.X = np.vzít(já.X, asort, 0) já.y = np.vzít(já.y, asort, 0) já.n = já.X.tvar[0] def __volání__(já, čas): tind = np.prohledáno(já.X, čas, já.boční) - 1 vrátit se já.y[tind]třída ECDF(StepFunction): def __init__(já, X, boční="že jo"): X = np.pole(X, kopírovat=Skutečný) X.třídit() šlechtici = len(X) y = np.linspace(1.0 / šlechtici, 1, šlechtici) super(ECDF, já).__init__(X, y, boční=boční, tříděny=Skutečný)def monotone_fn_inverter(fn, X, vektorizovaný=Skutečný, **klíčová slova): X = np.asarray(X) -li vektorizovaný: y = fn(X, **klíčová slova) jiný: y = [] pro _X v X: y.připojit(fn(_X, **klíčová slova)) y = np.pole(y) A = np.argsort(y) vrátit se interp1d(y[A], X[A])-li __název__ == "__hlavní__": # TODO: Ujistěte se, že je vše správně zarovnané, a proveďte vykreslení # funkce z urllib.request import urlopen import matplotlib.pyplot tak jako plt nervová data = urlopen(„http://www.statsci.org/data/general/nerve.txt“) nervová data = np.loadtxt(nervová data) X = nervová data / 50.0 # Bylo za 1/50 sekundy cdf = ECDF(X) X.třídit() F = cdf(X) plt.krok(X, F, kde="pošta") dolní, horní = _conf_set(F) plt.krok(X, dolní, „r“, kde="pošta") plt.krok(X, horní, „r“, kde="pošta") plt.xlim(0, 1.5) plt.ylim(0, 1.05) plt.vlines(X, 0, 0.05) plt.ukázat()
Statistická implementace
Neúplný seznam softwarových implementací funkce Empirical Distribution zahrnuje:
- v R software, počítáme empirickou kumulativní distribuční funkci s několika metodami pro vykreslování, tisk a výpočet s takovým objektem „ecdf“.
- v Mathworks můžeme použít graf empirické kumulativní distribuční funkce (cdf)
- jmp od SAS „CDF plot vytvoří graf empirické kumulativní distribuční funkce.
- Minitab, vytvořte empirický CDF
- Mathwave, můžeme přizpůsobit rozdělení pravděpodobnosti našim datům
- Dataplot, můžeme vykreslit empirický diagram CDF
- Scipy, pomocí scipy.stats můžeme vykreslit distribuci
- Statistické modely, můžeme použít statsmodels.distribution.empirical_distribution.ECDF
- Matplotlib, můžeme použít histogramy k vykreslení kumulativní distribuce
- Vynikat, můžeme vykreslit empirický diagram CDF
Viz také
- Càdlàg funkce
- Počítat data
- Distribuční tvarovka
- Nerovnost Dvoretzky – Kiefer – Wolfowitz
- Empirická pravděpodobnost
- Empirický proces
- Odhad kvantilů ze vzorku
- Frekvence (statistika)
- Kaplan – Meierův odhad pro cenzurované procesy
- Funkce přežití
Reference
- ^ A b C van der Vaart, A.W. (1998). Asymptotické statistiky. Cambridge University Press. str.265. ISBN 0-521-78450-6.
- ^ PlanetMath Archivováno 9. května 2013, v Wayback Machine
- ^ Coles, S. (2001) Úvod do statistického modelování extrémních hodnot. Springer, str. 36, definice 2.4. ISBN 978-1-4471-3675-0.
- ^ Madsen, H.O., Krenk, S., Lind, S.C. (2006) Metody konstrukční bezpečnosti. Dover Publications. str. 148-149. ISBN 0486445976
- ^ A b van der Vaart, A.W. (1998). Asymptotické statistiky. Cambridge University Press. str.266. ISBN 0-521-78450-6.
- ^ A b C van der Vaart, A.W. (1998). Asymptotické statistiky. Cambridge University Press. str.268. ISBN 0-521-78450-6.
Další čtení
- Shorack, G.R .; Wellner, J.A. (1986). Empirické procesy s aplikacemi pro statistiku. New York: Wiley. ISBN 0-471-86725-X.CS1 maint: ref = harv (odkaz)
externí odkazy
- Média související s Empirické distribuční funkce na Wikimedia Commons