Statistické měření toho, jak daleko se hodnoty šíří od jejich průměru
Příklad vzorků ze dvou populací se stejnou střední, ale odlišnou odchylkou. Červená populace má průměr 100 a rozptyl 100 (SD = 10), zatímco modrá populace má průměr 100 a rozptyl 2500 (SD = 50).
v teorie pravděpodobnosti a statistika, rozptyl je očekávání na druhou odchylka a náhodná proměnná od jeho znamenat. Neformálně měří, do jaké míry se množina čísel rozprostírá od jejich průměrné hodnoty. Variance má ústřední roli ve statistikách, kde zahrnují některé nápady, které ji používají deskriptivní statistika, statistická inference, testování hypotéz, dobrota fit, a Odběr vzorků v Monte Carlu. Rozptyl je důležitým nástrojem ve vědách, kde je běžná statistická analýza dat. Rozptyl je druhou mocninou standardní odchylka, druhý centrální moment a rozdělení a kovariance náhodné proměnné sama o sobě a často ji představuje
,
nebo
.
Definice
Rozptyl náhodné proměnné
je očekávaná hodnota na druhou odchylku od znamenat z
,
:
![operatorname {Var} (X) = operatorname {E} left [(X-mu) ^ {2} ight].](https://wikimedia.org/api/rest_v1/media/math/render/svg/55622d2a1cf5e46f2926ab389a8e3438edb53731)
Tato definice zahrnuje náhodné proměnné, které jsou generovány procesy, které jsou oddělený, kontinuální, ani nebo smíšené. Rozptyl lze také chápat jako kovarianci náhodné proměnné sama se sebou:

Rozptyl je také ekvivalentní druhé kumulant rozdělení pravděpodobnosti, které generuje
. Rozptyl se obvykle označuje jako
,
nebo jednoduše
(vyslovuje se „sigma na druhou "). Výraz pro rozptyl lze rozšířit takto:
![{displaystyle {egin {aligned} operatorname {Var} (X) & = operatorname {E} left [(X-operatorname {E} [X]) ^ {2} ight] [4pt] & = operatorname {E} left [X ^ {2} -2Xoperatorname {E} [X] + operatorname {E} [X] ^ {2} ight] [4pt] & = operatorname {E} vlevo [X ^ {2} ight] -2operatorname { E} [X] operatorname {E} [X] + operatorname {E} [X] ^ {2} [4pt] & = operatorname {E} vlevo [X ^ {2} ight] -operatorname {E} [X ] ^ {2} konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4ad35c4161b9cf52868e879d457d8d796094ff02)
Jinými slovy, rozptyl X se rovná průměru druhé mocniny X minus čtverec střední hodnoty X. Tato rovnice by se neměla používat pro výpočty s použitím aritmetika s plovoucí desetinnou čárkou, protože trpí katastrofické zrušení jestliže jsou si obě složky rovnice podobné. Další numericky stabilní alternativy viz Algoritmy pro výpočet rozptylu.
Diskrétní náhodná proměnná
Pokud je generátor náhodné proměnné
je oddělený s funkce pravděpodobnostní hmotnosti
, pak

nebo ekvivalentně

kde
je očekávaná hodnota. To znamená

(Když takový diskrétní vážený rozptyl je určeno váhami, jejichž součet není 1, pak se vydělí součtem váh.)
Rozptyl kolekce
stejně pravděpodobné hodnoty lze zapsat jako

kde
je průměrná hodnota. To znamená

Rozptyl sady
stejně pravděpodobné hodnoty lze ekvivalentně vyjádřit, aniž bychom přímo odkazovali na průměr, pokud jde o druhou odchylku všech bodů od sebe navzájem:[1]

Absolutně spojitá náhodná proměnná
Pokud náhodná proměnná
má funkce hustoty pravděpodobnosti
, a
je odpovídající kumulativní distribuční funkce, pak
![{displaystyle {egin {aligned} operatorname {Var} (X) = sigma ^ {2} & = int _ {mathbb {R}} (x-mu) ^ {2} f (x), dx [4pt] & = int _ {mathbb {R}} x ^ {2} f (x), dx-2mu int _ {mathbb {R}} xf (x), dx + mu ^ {2} int _ {mathbb {R}} f (x), dx [4pt] & = int _ {mathbb {R}} x ^ {2}, dF (x) -2mu int _ {mathbb {R}} x, dF (x) + mu ^ { 2} int _ {mathbb {R}}, dF (x) [4pt] & = int _ {mathbb {R}} x ^ {2}, dF (x) -2mu cdot mu + mu ^ {2} cdot 1 [4pt] & = int _ {mathbb {R}} x ^ {2}, dF (x) -mu ^ {2}, konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cdf3ec706581db5951e939cb3993a5c8289d7da4)
nebo ekvivalentně

kde
je očekávaná hodnota
dána

V těchto vzorcích jsou integrály s ohledem na
a
jsou Lebesgue a Lebesgue – Stieltjes integrály.
Pokud je funkce
je Riemann integrovatelný na každém konečném intervalu
pak

kde integrál je nesprávný Riemannův integrál.
Příklady
Exponenciální rozdělení
The exponenciální rozdělení s parametrem λ je spojitá distribuce, jejíž funkce hustoty pravděpodobnosti darováno

na intervalu [0, ∞). Může se ukázat, že jeho průměr je
![{displaystyle operatorname {E} [X] = int _ {0} ^ {infty} lambda xe ^ {- lambda x}, dx = {frac {1} {lambda}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2fc9d5854b87fd1f6a380b1df34d7d9fffcf9b0b)
Použitím integrace po částech a s využitím již vypočítané očekávané hodnoty máme:
![{displaystyle {egin {aligned} operatorname {E} left [X ^ {2} ight] & = int _ {0} ^ {infty} lambda x ^ {2} e ^ {- lambda x}, dx & = left [-x ^ {2} e ^ {- lambda x} ight] _ {0} ^ {infty} + int _ {0} ^ {infty} 2xe ^ {- lambda x}, dx & = 0+ {frac {2} {lambda}} operatorname {E} [X] & = {frac {2} {lambda ^ {2}}}. Konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/206a5ddf1e6d9ce69e6609c702850172ff3e1311)
Rozptyl tedy X darováno
![{displaystyle operatorname {Var} (X) = operatorname {E} left [X ^ {2} ight] -operatorname {E} [X] ^ {2} = {frac {2} {lambda ^ {2}}} - left ({frac {1} {lambda}} ight) ^ {2} = {frac {1} {lambda ^ {2}}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a5064d28d7da067a7a675ae68d992b83bc339c32)
Fair die
Spravedlivé šestistranný zemřít lze modelovat jako diskrétní náhodnou proměnnou, X, s výsledky 1 až 6, každý se stejnou pravděpodobností 1/6. Očekávaná hodnota X je
Proto je rozptyl X je
![{displaystyle {egin {aligned} operatorname {Var} (X) & = sum _ {i = 1} ^ {6} {frac {1} {6}} vlevo (i- {frac {7} {2}} vpravo ) ^ {2} [5pt] & = {frac {1} {6}} vlevo ((- 5/2) ^ {2} + (- 3/2) ^ {2} + (- 1/2) ^ {2} + (1/2) ^ {2} + (3/2) ^ {2} + (5/2) ^ {2} ight) [5pt] & = {frac {35} {12} } přibližně 2,92.end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6b1b6a74f544d9422366dc015805d67149030ec7)
Obecný vzorec pro rozptyl výsledku, X, z n-stranný zemřít je
![{displaystyle {egin {aligned} operatorname {Var} (X) & = operatorname {E} left (X ^ {2} ight) - (operatorname {E} (X)) ^ {2} [5pt] & = { frac {1} {n}} součet _ {i = 1} ^ {n} i ^ {2} -left ({frac {1} {n}} součet _ {i = 1} ^ {n} iight) ^ {2} [5pt] & = {frac {(n + 1) (2n + 1)} {6}} - vlevo ({frac {n + 1} {2}} vpravo) ^ {2} [4pt ] & = {frac {n ^ {2} -1} {12}}. konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9a476607e0a4d7f3ba660d8f260abd520b2ffbed)
Běžně používané rozdělení pravděpodobnosti
Následující tabulka uvádí rozptyl pro některé běžně používané rozdělení pravděpodobnosti.
Název rozdělení pravděpodobnosti | Funkce rozdělení pravděpodobnosti | Znamenat | Rozptyl |
---|
Binomická distribuce |  |  |  |
---|
Geometrické rozdělení |  |  |  |
---|
Normální distribuce |  |  |  |
---|
Rovnoměrné rozdělení (kontinuální) | ![{displaystyle f (xmid a, b) = {egin {cases} {frac {1} {ba}} & {ext {for}} aleq xleq b, [3pt] 0 & {ext {for}} x <a { ext {or}} x> ohyb {případy}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a49d9ce0f31f14565d14be7083c467987eb0823f) |  |  |
---|
Exponenciální rozdělení |  |  |  |
---|
Poissonovo rozdělení |  |  |  |
---|
Vlastnosti
Základní vlastnosti
Rozptyl je nezáporný, protože čtverce jsou kladné nebo nulové:

Rozptyl konstanty je nulový.

Naopak, pokud je rozptyl náhodné proměnné 0, pak je téměř jistě konstanta. To znamená, že má vždy stejnou hodnotu:

Rozptyl je neměnný s ohledem na změny v a parametr umístění. To znamená, že pokud je ke všem hodnotám proměnné přidána konstanta, rozptyl se nezmění:

Pokud jsou všechny hodnoty škálovány konstantou, je rozptyl škálován druhou mocninou této konstanty:

Rozptyl součtu dvou náhodných proměnných je dán vztahem


kde
je kovariance.
Obecně platí, že pro součet
náhodné proměnné
, varianta se stává:

Tyto výsledky vedou k rozptylu a lineární kombinace tak jako:

Pokud náhodné proměnné
jsou takové, že

pak se říká, že jsou nesouvisí. Z výše uvedeného výrazu bezprostředně vyplývá, že pokud jde o náhodné proměnné
jsou nekorelované, pak rozptyl jejich součtu se rovná součtu jejich odchylek, nebo vyjádřený symbolicky:

Protože nezávislé náhodné proměnné vždy nesouvisejí (viz Kovariance § Nekorelace a nezávislost ), výše uvedená rovnice platí zejména v případě náhodných proměnných
jsou nezávislé. Nezávislost je tedy dostatečná, ale není nutná, aby se rozptyl součtu rovnal součtu odchylek.
Otázky konečnosti
Pokud distribuce nemá konečnou očekávanou hodnotu, jako je tomu v případě Cauchyovo rozdělení, pak ani rozptyl nemůže být konečný. Některá rozdělení však nemusí mít konečnou odchylku, přestože jejich očekávaná hodnota je konečná. Příkladem je a Paretova distribuce jehož index
splňuje 
Součet nekorelovaných proměnných (Bienaymův vzorec)
Jedním z důvodů pro použití rozptylu přednostně před jinými měřítky rozptylu je to, že rozptyl součtu (nebo rozdílu) nesouvisí náhodné proměnné je součet jejich odchylek:

Toto tvrzení se nazývá Bienaymé vzorec[2] a byl objeven v roce 1853.[3][4] Často se vyrábí se silnější podmínkou, že proměnné jsou nezávislý, ale být nekorelovaný stačí. Takže pokud mají všechny proměnné stejnou rozptyl σ2, poté, co dělení n je lineární transformace, tento vzorec okamžitě naznačuje, že odchylka jejich průměru je

To znamená, že rozptyl průměru klesá, když n zvyšuje. Tento vzorec pro rozptyl průměru se používá při definici standardní chyba průměru vzorku, který se používá v teorém centrálního limitu.
K prokázání původního tvrzení to stačí ukázat

Obecný výsledek pak následuje indukcí. Počínaje definicí,
![{displaystyle {egin {aligned} operatorname {Var} (X + Y) & = operatorname {E} left [(X + Y) ^ {2} ight] - (operatorname {E} [X + Y]) ^ {2 } [5pt] & = operatorname {E} left [X ^ {2} + 2XY + Y ^ {2} ight] - (operatorname {E} [X] + operatorname {E} [Y]) ^ {2} .end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/19f68b26d8eddd872d85cb9b846a7b8253c30a18)
Pomocí linearity operátor očekávání a převzetí nezávislosti (nebo nesouladu) z X a Y, to dále zjednodušuje takto:
![{displaystyle {egin {aligned} operatorname {Var} (X + Y) & = operatorname {E} left [X ^ {2} ight] + 2operatorname {E} [XY] + operatorname {E} left [Y ^ {2 } ight] -left (operatorname {E} [X] ^ {2} + 2operatorname {E} [X] operatorname {E} [Y] + operatorname {E} [Y] ^ {2} ight) [5pt] & = operatorname {E} vlevo [X ^ {2} ight] + operatorname {E} vlevo [Y ^ {2} ight] -operatorname {E} [X] ^ {2} -operatorname {E} [Y] ^ {2} [5pt] & = operatorname {Var} (X) + operatorname {Var} (Y) .end {aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a17cef95ad7c7877b877c4e7bb2b3788ff2dde00)
Součet korelovaných proměnných
S korelací a pevnou velikostí vzorku
Obecně platí, že odchylka součtu n proměnných je součet jejich kovariance:

(Poznámka: Druhá rovnost pochází ze skutečnosti, že Cov (Xi,Xi) = Var (Xi).)
Tady, Cov (⋅, ⋅) je kovariance, což je nula pro nezávislé náhodné proměnné (pokud existují). Vzorec uvádí, že rozptyl součtu se rovná součtu všech prvků v kovarianční matici komponent. Následující výraz ekvivalentně uvádí, že rozptyl součtu je součtem úhlopříčky kovarianční matice plus dvojnásobkem součtu jejích horních trojúhelníkových prvků (nebo jeho dolních trojúhelníkových prvků); toto zdůrazňuje, že kovarianční matice je symetrická. Tento vzorec se používá v teorii Cronbachova alfa v teorie klasických testů.
Takže pokud mají proměnné stejnou odchylku σ2 a průměr korelace různých proměnných je ρ, pak je odchylka jejich průměru

To znamená, že rozptyl průměru se zvyšuje s průměrem korelací. Jinými slovy, další korelovaná pozorování nejsou tak účinná jako další nezávislá pozorování při snižování nejistota průměru. Navíc, pokud mají proměnné jednotkovou odchylku, například pokud jsou standardizované, pak se to zjednoduší na

Tento vzorec se používá v Spearman – Brownův predikční vzorec klasické teorie testů. To konverguje k ρ -li n jde do nekonečna za předpokladu, že průměrná korelace zůstane konstantní nebo také konverguje. Takže pro rozptyl průměru standardizovaných proměnných se stejnými korelacemi nebo konvergující průměrnou korelací máme

Proto se rozptyl průměru velkého počtu standardizovaných proměnných přibližně rovná jejich průměrné korelaci. To objasňuje, že průměr vzorku korelovaných proměnných obecně nekonverguje k průměru populace, přestože zákon velkých čísel uvádí, že průměr vzorku bude konvergovat pro nezávislé proměnné.
I.i.d. s náhodnou velikostí vzorku
Existují případy, kdy je vzorek odebrán, aniž by předem věděli, kolik pozorování bude přijatelné podle nějakého kritéria. V takových případech velikost vzorku N je náhodná proměnná, jejíž variace přispívá k variaci X, takový, že
- Var (∑X) = E (N) Var (X) + Var (N)E2(X).[5]
Li N má Poissonovo rozdělení, pak E (N) = Var (N) s odhadcem N = n. Odhad Var (∑X) se stává nS2X + nX2 dávat
- standardní chyba (X) = √[(S2X + X2)/n].
Maticová notace pro rozptyl lineární kombinace
Definovat
jako vektor sloupce
náhodné proměnné
, a
jako vektor sloupce
skaláry
. Proto,
je lineární kombinace těchto náhodných proměnných, kde
označuje přemístit z
. Také nechte
být kovarianční matice z
. Rozptyl
je pak dáno:[6]

To znamená, že odchylku průměru lze zapsat jako (s vektorem sloupců jedniček)

Vážený součet proměnných
Vlastnost škálování a vzorec Bienaymé spolu s vlastností kovariance Cov (sekera, podle) = ab Cov (X, Y) společně to naznačují

To znamená, že ve váženém součtu proměnných bude mít proměnná s největší váhou disproporčně velkou váhu v rozptylu součtu. Například pokud X a Y nesouvisí a váha X je dvojnásobek hmotnosti Y, pak váha rozptylu X bude čtyřnásobkem váhy rozptylu Y.
Výše uvedený výraz lze rozšířit na vážený součet více proměnných:

Produkt nezávislých proměnných
Pokud jsou dvě proměnné X a Y nezávislý, je odchylka jejich produktu dána[7]
![{displaystyle operatorname {Var} (XY) = [operatorname {E} (X)] ^ {2} operatorname {Var} (Y) + [operatorname {E} (Y)] ^ {2} operatorname {Var} (X ) + operatorname {Var} (X) operatorname {Var} (Y).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/217846baaed2d1a73bd83728419c8199c66c06f0)
Ekvivalentně, pomocí základních vlastností očekávání, je dán vztahem
![{displaystyle operatorname {Var} (XY) = operatorname {E} left (X ^ {2} ight) operatorname {E} left (Y ^ {2} ight) - [operatorname {E} (X)] ^ {2} [operatorname {E} (Y)] ^ {2}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/60f81d984aa103aed089cc56c27406c845fa50da)
Produkt statisticky závislých proměnných
Obecně platí, že pokud jsou dvě proměnné statisticky závislé, je odchylka jejich součinu dána vztahem:
![{displaystyle {egin {aligned} operatorname {Var} (XY) = {} & operatorname {E} left [X ^ {2} Y ^ {2} ight] - [operatorname {E} (XY)] ^ {2} [5pt] = {} & operatorname {Cov} left (X ^ {2}, Y ^ {2} ight) + operatorname {E} (X ^ {2}) operatorname {E} left (Y ^ {2} ight) - [operatorname {E} (XY)] ^ {2} [5pt] = {} & operatorname {Cov} left (X ^ {2}, Y ^ {2} ight) + left (operatorname {Var} (X) + [operatorname {E} (X)] ^ {2} ight) left (operatorname {Var} (Y) + [operatorname {E} (Y)] ^ {2} ight) [5pt] & - [operatorname { Cov} (X, Y) + operatorname {E} (X) operatorname {E} (Y)] ^ {2} konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/14f71664172a74f8d3dbf6f1b17addf168e55f11)
Rozklad
Obecný vzorec pro rozklad rozptylu nebo zákon totální odchylky je: Pokud
a
jsou dvě náhodné proměnné a rozptyl
tedy existuje
![{displaystyle operatorname {Var} [X] = operatorname {E} (operatorname {Var} [Xmid Y]) + operatorname {Var} (operatorname {E} [Xmid Y]).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d096b66af734c89681ab5cb61b24fbea63a48669)
The podmíněné očekávání
z
daný
a podmíněná odchylka
lze chápat následovně. Vzhledem k nějaké konkrétní hodnotě y náhodné proměnnéY, existuje podmíněné očekávání
vzhledem k událostiY = y. Toto množství závisí na konkrétní hodnotěy; je to funkce
. Stejná funkce vyhodnocena na náhodné proměnné Y je podmíněné očekávání 
Zejména pokud
je diskrétní náhodná proměnná za předpokladu možných hodnot
s odpovídajícími pravděpodobnostmi
, pak ve vzorci pro celkovou odchylku bude první člen na pravé straně
![{displaystyle operatorname {E} (operatorname {Var} [Xmid Y]) = součet _ {i} p_ {i} sigma _ {i} ^ {2},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/dc52b9938aac880c80b76dfe0bacc302c1d0f1d3)
kde
. Podobně se stane druhý člen na pravé straně
![{displaystyle operatorname {Var} (operatorname {E} [Xmid Y]) = sum _ {i} p_ {i} mu _ {i} ^ {2} -left (sum _ {i} p_ {i} mu _ { i} ight) ^ {2} = součet _ {i} p_ {i} mu _ {i} ^ {2} -mu ^ {2},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/069ee9f564216faf173487039b77447b1ef07da2)
kde
a
. Celková odchylka je tedy dána vztahem
![{displaystyle operatorname {Var} [X] = součet _ {i} p_ {i} sigma _ {i} ^ {2} + vlevo (součet _ {i} p_ {i} mu _ {i} ^ {2} - mu ^ {2} ight).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5653ed0b0a55e26b4763766d3e118bc05ed569f4)
Podobný vzorec se používá v analýza rozptylu, kde je odpovídající vzorec

tady
odkazuje na průměr čtverců. v lineární regrese analýza je odpovídající vzorec

To lze také odvodit z aditivnosti odchylek, protože celkové (pozorované) skóre je součtem předpovězeného skóre a skóre chyby, kde poslední dvě nejsou korelované.
Podobné rozklady jsou možné pro součet čtverců odchylek (součet čtverců,
):


Výpočet z CDF
Populační rozptyl pro nezápornou náhodnou proměnnou lze vyjádřit pomocí kumulativní distribuční funkce F použitím

Tento výraz lze použít k výpočtu rozptylu v situacích, kdy CDF, ale nikoli hustota, lze pohodlně vyjádřit.
Charakteristická vlastnost
Druhý okamžik náhodné proměnné dosáhne minimální hodnoty, když se vezme kolem prvního okamžiku (tj. průměr) náhodné proměnné, tj.
. Naopak, pokud je spojitá funkce
splňuje
pro všechny náhodné proměnné X, pak má nutně formu
, kde A > 0. To platí i pro vícerozměrný případ.[8]
Jednotky měření
Na rozdíl od očekávané absolutní odchylky má rozptyl proměnné jednotky, které jsou druhou mocninou jednotek samotné proměnné. Například proměnná měřená v metrech bude mít odchylku měřenou v metrech na druhou. Z tohoto důvodu popisující soubory dat prostřednictvím jejich standardní odchylka nebo odchylka od odmocniny je často upřednostňováno před použitím rozptylu. V příkladu kostek je směrodatná odchylka √2.9 ≈ 1.7, o něco větší než očekávaná absolutní odchylka 1,5.
Směrodatná odchylka i očekávaná absolutní odchylka mohou být použity jako indikátor „rozpětí“ distribuce. Směrodatná odchylka je přístupnější algebraické manipulaci než očekávaná absolutní odchylka a společně s odchylkou a jejím zobecněním kovariance, se často používá v teoretické statistice; očekávaná absolutní odchylka má však tendenci být více robustní protože je méně citlivý na odlehlé hodnoty vyplývající z anomálie měření nebo neoprávněně těžký-sledoval distribuci.
Aproximace rozptylu funkce
The delta metoda používá druhého řádu Taylorovy expanze aproximovat rozptyl funkce jedné nebo více náhodných proměnných: viz Taylorovy expanze pro momenty funkcí náhodných proměnných. Například přibližná odchylka funkce jedné proměnné je dána vztahem
![{displaystyle operatorname {Var} vlevo [f (X) ight] přibližně vlevo (f '(operatorname {E} vlevo [Xight]) ight) ^ {2} operatorname {Var} vlevo [Xight]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8c58412ffa8fdf818b89bafb3318c4ace7cd8e9b)
pokud F je dvakrát diferencovatelné a že průměr a rozptyl X jsou konečné.
Rozptyl populace a rozptyl vzorku
Pozorování v reálném světě, jako jsou měření včerejšího deště po celý den, obvykle nemohou být úplnou sadou všech možných pozorování, která lze provést. Jako takový bude rozptyl vypočítaný z konečné množiny obecně neodpovídat rozptylu, který by byl vypočítán z celé populace možných pozorování. To znamená ten odhady průměr a rozptyl, které by byly vypočteny z vševědoucí sady pozorování pomocí odhadce rovnice. Odhad je funkcí vzorek z n pozorování kresleno bez pozorovacího zkreslení z celku populace možných pozorování. V tomto příkladu by tímto vzorkem byla sada skutečných měření včerejních srážek z dostupných srážkoměrů v geografické oblasti zájmu.
Nejjednodušší odhady pro populační průměr a rozptyl populace jsou jednoduše průměr a rozptyl vzorku, průměr vzorku a (nekorigovaný) rozptyl vzorku - tyto jsou důsledné odhady (konvergují na správnou hodnotu, jak se zvyšuje počet vzorků), ale lze je vylepšit. Odhad rozptylu populace pomocí rozptylu vzorku se obecně blíží optimálnímu, ale lze jej zlepšit dvěma způsoby. Nejjednodušší je varianta vzorku vypočtena jako průměr čtvercové odchylky o průměru (vzorku) dělením n. Použití jiných hodnot než n vylepšuje odhadce různými způsoby. Čtyři běžné hodnoty pro jmenovatele jsou n, n − 1, n + 1 a n − 1.5: n je nejjednodušší (populační varianta vzorku), n - 1 eliminuje zkreslení, n + 1 minimalizuje střední čtvercová chyba pro normální rozdělení a n - 1.5 většinou eliminuje zkreslení v nestranný odhad směrodatné odchylky pro normální rozdělení.
Za prvé, pokud je vševědoucí průměr neznámý (a počítá se jako průměr vzorku), pak je rozptyl vzorku zkreslený odhad: podhodnocuje rozptyl faktorem (n − 1) / n; korekce tímto faktorem (vydělením n - 1 místo n) je nazýván Besselova korekce. Výsledný odhad je nezaujatý a nazývá se (opravená) rozptyl vzorku nebo nestranný rozptyl vzorku. Například když n = 1 rozptyl jediného pozorování o průměru vzorku (sám o sobě) je zjevně nulový bez ohledu na rozptyl populace. Pokud je průměr určen jiným způsobem než ze stejných vzorků použitých k odhadu rozptylu, pak toto zkreslení nevznikne a rozptyl lze bezpečně odhadnout jako rozptyl vzorků o (nezávisle známém) průměru.
Zadruhé, rozptyl vzorku obecně nezminimalizuje střední čtvercová chyba mezi rozptylem vzorku a rozptylem populace. Oprava zkreslení to často zhoršuje: vždy si můžete vybrat měřítkový faktor, který funguje lépe než opravená odchylka vzorku, ačkoli optimální měřítkový faktor závisí na nadměrná špičatost populace (viz střední čtvercová chyba: odchylka ) a zavádí zkreslení. Toto vždy spočívá ve zmenšení nezaujatého odhadce (vydělením o číslo větší než n - 1) a je jednoduchým příkladem a odhad zmenšení: jeden „zmenší“ nezaujatý odhadce na nulu. Pro normální rozdělení vydělením n + 1 (místo n - 1 nebo n) minimalizuje střední čtvercovou chybu. Výsledný odhad je však zkreslený a je znám jako předpjatá variace vzorku.
Rozptyl populace
Obecně platí, že rozptyl populace a konečný populace velikosti N s hodnotami Xi darováno
![{displaystyle {egin {aligned} sigma ^ {2} & = {frac {1} {N}} součet _ {i = 1} ^ {N} vlevo (x_ {i} -mu ight) ^ {2} = { frac {1} {N}} součet _ {i = 1} ^ {N} vlevo (x_ {i} ^ {2} -2 mi x_ {i} + mu ^ {2} ight) [5pt] & = vlevo ({frac {1} {N}} součet _ {i = 1} ^ {N} x_ {i} ^ {2} ight) -2mu vlevo ({frac {1} {N}} součet _ {i = 1 } ^ {N} x_ {i} ight) + mu ^ {2} [5pt] & = vlevo ({frac {1} {N}} součet _ {i = 1} ^ {N} x_ {i} ^ {2} ight) -mu ^ {2} konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e37c1ee507b7c4281e55b812bc3cc4f9b29f490c)
kde je průměrná populace

Rozptyl populace lze také vypočítat pomocí

To je pravda, protože
![{displaystyle {egin {aligned} & {frac {1} {2N ^ {2}}} součet _ {i, j = 1} ^ {N} vlevo (x_ {i} -x_ {j} vpravo) ^ {2 } [5pt] = {} & {frac {1} {2N ^ {2}}} součet _ {i, j = 1} ^ {N} vlevo (x_ {i} ^ {2} -2x_ {i} x_ {j} + x_ {j} ^ {2} ight) [5pt] = {} & {frac {1} {2N}} součet _ {j = 1} ^ {N} vlevo ({frac {1} {N}} součet _ {i = 1} ^ {N} x_ {i} ^ {2} ight) -left ({frac {1} {N}} součet _ {i = 1} ^ {N} x_ { i} ight) vlevo ({frac {1} {N}} součet _ {j = 1} ^ {N} x_ {j} ight) + {frac {1} {2N}} součet _ {i = 1} ^ {N} vlevo ({frac {1} {N}} součet _ {j = 1} ^ {N} x_ {j} ^ {2} ight) [5pt] = {} & {frac {1} {2 }} vlevo (sigma ^ {2} + mu ^ {2} ight) -mu ^ {2} + {frac {1} {2}} vlevo (sigma ^ {2} + mu ^ {2} ight) [ 5pt] = {} & sigma ^ {2} konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5e777ea322a3d824db39d47bcd745c25951bcb33)
Rozptyl populace odpovídá rozptylu generujícího rozdělení pravděpodobnosti. V tomto smyslu lze koncept populace rozšířit na spojité náhodné proměnné s nekonečnými populacemi.
Rozptyl vzorku
V mnoha praktických situacích není skutečná odchylka populace známa a priori a musí být nějak vypočítán. Při práci s extrémně velkými populacemi není možné spočítat každý objekt v populaci, takže výpočet musí být proveden na vzorek z populace.[9] Rozptyl vzorku lze také použít k odhadu rozptylu spojité distribuce ze vzorku této distribuce.
Bereme a vzorek s výměnou z n hodnoty Y1, ..., Yn od populace, kde n < Na odhadnout rozptyl na základě tohoto vzorku.[10] Přímé převzetí rozptylu vzorových dat dává průměr z čtvercové odchylky:

Tady,
označuje průměr vzorku:

Protože Yi jsou vybrány náhodně, oba
a
jsou náhodné proměnné. Jejich očekávané hodnoty lze vyhodnotit zprůměrováním celého souboru všech možných vzorků {Yi} velikosti n z populace. Pro
toto dává:
![{displaystyle {egin {aligned} operatorname {E} [sigma _ {Y} ^ {2}] & = operatorname {E} left [{frac {1} {n}} sum _ {i = 1} ^ {n} vlevo (Y_ {i} - {frac {1} {n}} součet _ {j = 1} ^ {n} Y_ {j} ight) ^ {2} ight] [5pt] & = {frac {1} {n}} součet _ {i = 1} ^ {n} operatorname {E} vlevo [Y_ {i} ^ {2} - {frac {2} {n}} Y_ {i} součet _ {j = 1} ^ {n} Y_ {j} + {frac {1} {n ^ {2}}} součet _ {j = 1} ^ {n} Y_ {j} součet _ {k = 1} ^ {n} Y_ { k} ight] [5pt] & = {frac {1} {n}} součet _ {i = 1} ^ {n} vlevo [{frac {n-2} {n}} operatorname {E} vlevo [Y_ {i} ^ {2} ight] - {frac {2} {n}} součet _ {jeq i} operatorname {E} vlevo [Y_ {i} Y_ {j} ight] + {frac {1} {n ^ {2}}} součet _ {j = 1} ^ {n} součet _ {keq j} ^ {n} operatorname {E} vlevo [Y_ {j} Y_ {k} ight] + {frac {1} {n ^ {2}}} součet _ {j = 1} ^ {n} operatorname {E} vlevo [Y_ {j} ^ {2} ight] ight] [5pt] & = {frac {1} {n}} součet _ {i = 1} ^ {n} vlevo [{frac {n-2} {n}} vlevo (sigma ^ {2} + mu ^ {2} ight) - {frac {2} {n}} ( n-1) mu ^ {2} + {frac {1} {n ^ {2}}} n (n-1) mu ^ {2} + {frac {1} {n}} vlevo (sigma ^ {2 } + mu ^ {2} ight) ight] [5pt] & = {frac {n-1} {n}} sigma ^ {2} .end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/61d7c57e20c1ae25d4a20478d0dc3e99f1c096d8)
Proto
poskytuje odhad rozptylu populace, který je předpjatý faktorem
. Z tohoto důvodu,
se označuje jako předpjatý rozptyl vzorku. Oprava tohoto zkreslení přináší nestranný rozptyl vzorku, označeno
:

Oba odhady lze jednoduše označit jako rozptyl vzorku kdy lze verzi určit podle kontextu. Stejný důkaz platí také pro vzorky odebrané z průběžného rozdělení pravděpodobnosti.
Použití termínu n - volá se 1 Besselova korekce, a používá se také v kovarianční vzorek a standardní směrodatná odchylka (druhá odmocnina rozptylu). Druhá odmocnina je a konkávní funkce a tím zavádí negativní zkreslení (o Jensenova nerovnost ), který závisí na distribuci, a tak je zkreslená opravená směrodatná odchylka vzorku (pomocí Besselovy korekce). The nestranný odhad směrodatné odchylky je technicky zapojený problém, i když pro normální distribuci používající tento výraz n - 1,5 přináší téměř nezaujatý odhad.
Nestranný rozptyl vzorku je a U-statistika pro funkci ƒ(y1, y2) = (y1 − y2)2/ 2, což znamená, že se získá zprůměrováním statistiky 2 vzorků nad 2prvkovými podmnožinami populace.
Rozdělení rozptylu vzorku
Distribuce a kumulativní distribuce S2/ σ2, pro různé hodnoty ν = n - 1, když yi jsou nezávislé normálně distribuované.
Být funkcí náhodné proměnné, rozptyl vzorku je sám o sobě náhodnou proměnnou a je přirozené studovat jeho distribuci. V případě, že Yi jsou nezávislá pozorování od a normální distribuce, Cochranova věta ukázat to s2 následuje v měřítku distribuce chí-kvadrát:[11]

Z toho vyplývá přímý důsledek

a[12]
![{displaystyle operatorname {Var} left [s ^ {2} ight] = operatorname {Var} left ({frac {sigma ^ {2}} {n-1}} chi _ {n-1} ^ {2} ight) = {frac {sigma ^ {4}} {(n-1) ^ {2}}} operatorname {Var} vlevo (chi _ {n-1} ^ {2} ight) = {frac {2sigma ^ {4} } {n-1}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ab6dfff50a267c642f3b9e51b150761a81bb00ad)
Pokud Yi jsou nezávislé a identicky distribuované, ale ne nutně normálně distribuované[13]
![{displaystyle operatorname {E} left [s ^ {2} ight] = sigma ^ {2}, quad operatorname {Var} left [s ^ {2} ight] = {frac {sigma ^ {4}} {n}} left (kappa -1+ {frac {2} {n-1}} ight) = {frac {1} {n}} left (mu _ {4} - {frac {n-3} {n-1}} sigma ^ {4} ight),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5e1abcb2ddd063b31acc8ab73edee87d319f3e3c)
kde κ je špičatost distribuce a μ4 je čtvrtý centrální moment.
Pokud jsou splněny podmínky zákon velkých čísel počkejte na druhou pozorování, s2 je konzistentní odhad zσ2. One can see indeed that the variance of the estimator tends asymptotically to zero. An asymptotically equivalent formula was given in Kenney and Keeping (1951:164), Rose and Smith (2002:264), and Weisstein (n.d.).[14][15][16]
Samuelson's inequality
Samuelson's inequality is a result that states bounds on the values that individual observations in a sample can take, given that the sample mean and (biased) variance have been calculated.[17] Values must lie within the limits 
Relations with the harmonic and arithmetic means
It has been shown[18] that for a sample {yi} of positive real numbers,

kde ymax is the maximum of the sample, A is the arithmetic mean, H je harmonický průměr of the sample and
is the (biased) variance of the sample.
This bound has been improved, and it is known that variance is bounded by


kde ymin is the minimum of the sample.[19]
Tests of equality of variances
Testing for the equality of two or more variances is difficult. The F test a chi square tests are both adversely affected by non-normality and are not recommended for this purpose.
Several non parametric tests have been proposed: these include the Barton–David–Ansari–Freund–Siegel–Tukey test, the Capon test, Mood test, Klotz test a Sukhatme test. The Sukhatme test applies to two variances and requires that both mediány be known and equal to zero. The Mood, Klotz, Capon and Barton–David–Ansari–Freund–Siegel–Tukey tests also apply to two variances. They allow the median to be unknown but do require that the two medians are equal.
The Lehmann test is a parametric test of two variances. Of this test there are several variants known. Other tests of the equality of variances include the Box test, Box–Anderson test a Moses test.
Resampling methods, which include the bootstrap a kudla, may be used to test the equality of variances.
Dějiny
Termín rozptyl byl poprvé představen Ronald Fisher in his 1918 paper Korelace mezi příbuznými o předpokladu Mendelovy dědičnosti:[20]
The great body of available statistics show us that the deviations of a human measurement from its mean follow very closely the Normal Law of Errors, and, therefore, that the variability may be uniformly measured by the standardní odchylka odpovídající odmocnina z mean square error. When there are two independent causes of variability capable of producing in an otherwise uniform population distributions with standard deviations
a
, it is found that the distribution, when both causes act together, has a standard deviation
. It is therefore desirable in analysing the causes of variability to deal with the square of the standard deviation as the measure of variability. We shall term this quantity the Variance...
Geometric visualisation of the variance of an arbitrary distribution (2, 4, 4, 4, 5, 5, 7, 9):
- A frequency distribution is constructed.
- The centroid of the distribution gives its mean.
- A square with sides equal to the difference of each value from the mean is formed for each value.
- Arranging the squares into a rectangle with one side equal to the number of values, n, results in the other side being the distribution's variance, σ2.
Moment setrvačnosti
The variance of a probability distribution is analogous to the moment setrvačnosti v klasická mechanika of a corresponding mass distribution along a line, with respect to rotation about its center of mass.[Citace je zapotřebí ] It is because of this analogy that such things as the variance are called momenty z rozdělení pravděpodobnosti.[Citace je zapotřebí ] The covariance matrix is related to the moment setrvačnosti tenzor for multivariate distributions. The moment of inertia of a cloud of n points with a covariance matrix of
darováno[Citace je zapotřebí ]

This difference between moment of inertia in physics and in statistics is clear for points that are gathered along a line. Suppose many points are close to the X axis and distributed along it. The covariance matrix might look like