„Vážený průměr“ přeadresuje tady. Nesmí být zaměňována s
Vážený medián.
The vážený aritmetický průměr je podobný obyčejnému aritmetický průměr (nejběžnější typ průměrný ), s tím rozdílem, že namísto každého z datových bodů přispívajících rovnoměrně ke konečnému průměru přispívají některé datové body více než jiné. Pojem váženého průměru hraje roli v deskriptivní statistika a také se vyskytuje v obecnější formě v několika dalších oblastech matematiky.
Pokud jsou všechny váhy stejné, pak vážený průměr je stejný jako aritmetický průměr. Zatímco vážené prostředky se obecně chovají podobným způsobem jako aritmetické prostředky, mají několik neintuitivních vlastností, jak je zachyceno například v Simpsonův paradox.
Příklady
Základní příklad
Vzhledem k tomu, že dvě školní třídy, jedna s 20 studenty a jedna s 30 studenty, byly v každé třídě v testu známky:
- Ranní hodina = 62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98
- Odpolední třída = 81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93 94, 95, 96, 97, 98, 99
Průměr pro dopolední třídu je 80 a průměr pro odpolední třídu je 90. Nevážený průměr ze dvou průměrů je 85. To však nezohledňuje rozdíl v počtu studentů v každé třídě (20 proti 30); hodnota 85 tedy neodráží průměrný stupeň studenta (nezávisle na třídě). Průměrnou známku studenta lze získat zprůměrováním všech známek bez ohledu na klasifikaci (sečtěte všechny známky a vydělte je celkovým počtem studentů):

Nebo toho lze dosáhnout vážením třídních prostředků podle počtu studentů v každé třídě. Větší třídě má větší váhu:

Vážený průměr tedy umožňuje najít průměrnou průměrnou známku studenta, aniž by znal skóre každého studenta. Jsou potřeba pouze prostředky ve třídě a počet studentů v každé třídě.
Příklad konvexní kombinace
Protože pouze relativní váhy jsou relevantní, jakýkoli vážený průměr lze vyjádřit pomocí koeficientů, které jsou součtem jedné. Taková lineární kombinace se nazývá a konvexní kombinace.
Pomocí předchozího příkladu bychom získali následující váhy:


Potom použijte závaží takto:

Matematická definice
Formálně vážený průměr neprázdné konečné multiset dat
s odpovídajícími nezápornými hodnotami závaží
je

který se rozšiřuje na:

Proto datové prvky s vysokou hmotností přispívají k váženému průměru více než prvky s nízkou hmotností. Váhy nemohou být záporné. Některé mohou být nulové, ale ne všechny (protože dělení nulou není povoleno).
Vzorce jsou zjednodušeny, když jsou váhy normalizovány tak, že sečtou
, tj.:
.
U takto normalizovaných vah je vážený průměr pak:
.
Všimněte si, že váhy lze vždy normalizovat provedením následující transformace na původní váhy:
.
Použitím normalizované hmotnosti získáte stejné výsledky jako při použití původních závaží:

The obyčejný průměr
je speciální případ váženého průměru, kde mají všechna data stejnou váhu.
The standardní chyba váženého průměru (odchylky vstupu jednotky),
lze zobrazit pomocí šíření nejistoty být:

Statistické vlastnosti
Vážený průměr vzorku,
, je sama o sobě náhodná proměnná. Jeho očekávaná hodnota a směrodatná odchylka souvisí s očekávanými hodnotami a směrodatnými odchylkami pozorování, jak je uvedeno níže. Pro zjednodušení předpokládáme normalizované váhy (váhy sčítané do jedné).
Pokud mají pozorování očekávané hodnoty

pak vážený průměr vzorku má očekávání

Zejména pokud jsou prostředky stejné,
, pak očekávání váženého průměru vzorku bude tato hodnota,

Pro nekorelovaná pozorování s odchylkami
, rozptyl váženého průměru vzorku je[Citace je zapotřebí ]

jehož druhá odmocnina
lze nazvat standardní chyba váženého průměru (obecný případ).[Citace je zapotřebí ]
Pokud mají tedy všechna pozorování stejnou rozptyl,
, vážený průměr vzorku bude mít rozptyl

kde
. Rozptyl dosahuje své maximální hodnoty,
, když jsou všechny váhy kromě jedné nulové. Jeho minimální hodnota se zjistí, když jsou všechny váhy stejné (tj. Nevážený průměr), v takovém případě máme
, tj. degeneruje do standardní chyba průměru, na druhou.
Všimněte si, že protože lze vždy transformovat nenormalizované váhy na normalizované váhy, lze všechny vzorce v této části upravit na nenormalizované váhy nahrazením všech
.
Váhy odchylek
Pro vážený průměr ze seznamu dat, pro která každý prvek
potenciálně pochází z jiného rozdělení pravděpodobnosti se známým rozptyl
, jedna možná volba pro váhy je dána převrácenou odchylkou:

Vážený průměr v tomto případě je:

a standardní chyba váženého průměru (s váhami rozptylu) je:

Všimněte si, že se to sníží na
když všichni
Jedná se o speciální případ obecného vzorce v předchozí části,

Výše uvedené rovnice lze kombinovat a získat:

Význam této volby spočívá v tom, že tento vážený průměr je odhad maximální pravděpodobnosti střední hodnoty rozdělení pravděpodobnosti za předpokladu, že jsou nezávislé a normálně distribuováno se stejným průměrem.
Oprava nadměrného nebo nedostatečného rozptylu
Vážené prostředky se obvykle používají k nalezení váženého průměru historických dat, nikoli teoreticky generovaných dat. V tomto případě dojde k nějaké chybě v rozptylu každého datového bodu. Experimentální chyby lze obvykle podceňovat, protože experimentátor při výpočtu rozptylu každého datového bodu nebere v úvahu všechny zdroje chyb. V takovém případě musí být odchylka ve váženém průměru opravena, aby se zohlednila skutečnost, že
je příliš velký. Oprava, kterou je třeba provést, je

kde
je snížený chi-kvadrát:

Druhá odmocnina
lze nazvat standardní chyba váženého průměru (váhy odchylek, opravená stupnice).
Když jsou všechny odchylky dat stejné,
, ruší se ve váženém průměrném rozptylu,
, což se opět snižuje na standardní chyba průměru (na druhou),
, formulované z hlediska standardní směrodatná odchylka (na druhou),

Ověření bootstrappingu
Ukázalo se to bootstrapping metody, které jsou přesným odhadem pro druhou mocninu standardní chyby průměru (obecný případ):[1]
![{ displaystyle sigma _ { bar {x}} ^ {2} = { frac {n} {(n-1) w_ {s} ^ {2}}} left [ sum (w_ {i} x_ {i} -w_ {s} { bar {x}}) ^ {2} -2 { bar {x}} sum (w_ {i} -w_ {s}) (w_ {i} x_ { i} -w_ {s} { bar {x}}) + { bar {x}} ^ {2} sum (w_ {i} -w_ {s}) ^ {2} right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/81592116d26fb7f26af6e6685233eabf3bfad795)
kde
. Další zjednodušení vede k

Vážená odchylka vzorku
Když se vypočítá průměr, je obvykle důležité znát rozptyl a standardní odchylka o tom znamená. Když vážený průměr
Pokud je použito, rozptyl váženého vzorku se liší od rozptylu neváženého vzorku.
The předpojatý vážený rozptyl vzorku
je definován podobně jako normální předpojatý rozptyl vzorku
:

kde
, který je
pro normalizované váhy. Pokud jsou váhy frekvenční váhy (a jsou to tedy náhodné proměnné), lze to ukázat
je maximální odhad pravděpodobnosti
pro iid Gaussova pozorování.
U malých vzorků je obvyklé používat nezaujatý odhad pro populační rozptyl. V normálních nevážených vzorcích N ve jmenovateli (odpovídající velikosti vzorku) se změní na N - 1 (viz Besselova korekce ). Ve váženém nastavení existují ve skutečnosti dva různé nezaujaté odhady, jeden pro případ frekvenční váhy a další pro případ váhy spolehlivosti.
Frekvenční váhy
Pokud jsou váhy frekvenční váhy[je nutná definice ], pak je objektivní odhad:

Tím se efektivně použije Besselova korekce pro frekvenční váhy.
Například pokud hodnoty
jsou čerpány ze stejné distribuce, pak můžeme tuto sadu považovat za nevážený vzorek, nebo ji můžeme považovat za vážený vzorek
s odpovídajícími váhami
, a získáme stejný výsledek v obou směrech.
Pokud je frekvence závaží
jsou normalizovány na 1, pak se po Besselově korekci stane správný výraz

kde je celkový počet vzorků
(ne
). V každém případě jsou informace o celkovém počtu vzorků nezbytné k získání objektivní korekce, i když
má jiný význam než frekvenční váha.
Upozorňujeme, že odhad může být nestranný pouze v případě, že váhy nejsou standardizováno ani normalizováno, tyto procesy mění průměr a rozptyl dat, což vede k a ztráta základní sazby (počet obyvatel, což je požadavek na Besselovu opravu).
Váhy spolehlivosti
Pokud jsou váhy místo toho nenáhodné (váhy spolehlivosti[je nutná definice ]), můžeme určit korekční faktor, abychom získali nestranný odhad. Za předpokladu, že každá náhodná proměnná je vzorkována ze stejného rozdělení s průměrem
a skutečná odchylka
vezmeme očekávání, která máme,
![{ displaystyle { begin {aligned} operatorname {E} [{ hat { sigma}} ^ {2}] & = { frac { sum limits _ {i = 1} ^ {N} operatorname {E} [(x_ {i} - mu) ^ {2}]} {N}} & = operatorname {E} [(X- operatorname {E} [X]) ^ {2}] - { frac {1} {N}} operatorname {E} [(X- operatorname {E} [X]) ^ {2}] & = left ({ frac {N-1} { N}} right) sigma _ { text {actual}} ^ {2} operatorname {E} [{ hat { sigma}} _ { mathrm {w}} ^ {2}] & = { frac { sum limits _ {i = 1} ^ {N} w_ {i} operatorname {E} [(x_ {i} - mu ^ {*}) ^ {2}]}} {V_ {1}}} & = operatorname {E} [(X- operatorname {E} [X]) ^ {2}] - { frac {V_ {2}} {V_ {1} ^ {2 }}} operatorname {E} [(X- operatorname {E} [X]) ^ {2}] & = left (1 - { frac {V_ {2}} {V_ {1} ^ {2}}} right) sigma _ { text {actual}} ^ {2} end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d62874f46e78f0496b47f4486c021e9eb22858ea)
kde
. Proto je zkreslení v našem odhadci
, analogicky k
zkreslení v neváženém odhadci (všimněte si také toho
je efektivní velikost vzorku ). To znamená, že abychom mohli zkreslit náš odhad, musíme ho předem rozdělit
, zajišťující, že očekávaná hodnota odhadované odchylky se rovná skutečné odchylce distribuce vzorkování.
Konečný nezaujatý odhad rozptylu vzorku je:
,[2]
kde
.
Stupně volnosti váženého, nezaujatého rozptylu vzorků se podle toho liší N - 1 až 0.
Směrodatná odchylka je jednoduše druhá odmocnina rozptylu výše.
Jako vedlejší poznámku byly popsány další přístupy k výpočtu váženého rozptylu vzorků.[3]
Vážená kovariance vzorku
Ve váženém vzorku každý řádek vektor
(každá sada jednotlivých pozorování na každém z K. náhodných proměnných) je přiřazena váha
.
Pak Vážený průměr vektor
je dána

A vážená kovarianční matice je dána vztahem:[4]

Podobně jako u váženého rozptylu vzorku existují dva různé nezaujaté odhady v závislosti na typu vah.
Frekvenční váhy
Pokud jsou váhy frekvenční váhy, objektivní vážený odhad kovarianční matice
, s Besselovou korekcí, je dán vztahem:[4]

Všimněte si, že tento odhad může být nestranný pouze v případě, že váhy nejsou standardizováno ani normalizováno, tyto procesy mění průměr a rozptyl dat, což vede k a ztráta základní sazby (počet obyvatel, což je požadavek na Besselovu opravu).
Váhy spolehlivosti
V případě váhy spolehlivosti, váhy jsou normalizováno:

(Pokud tomu tak není, vydělte váhy výpočtem jejich součtem, aby se normalizovaly
:

Pak Vážený průměr vektor
lze zjednodušit na

a objektivní vážený odhad kovarianční matice
je:[5]

Zdůvodnění je stejné jako v předchozí části.
Protože předpokládáme, že váhy jsou normalizovány, pak
a to se redukuje na:

Pokud jsou všechny váhy stejné, tj.
, pak se vážený průměr a kovariance sníží na nevážený průměr vzorku a kovarianci výše.
Odhady s vektorovou hodnotou
Výše uvedené se zobecňuje snadno v případě, že se použije průměr odhadů s vektorovou hodnotou. Například odhady polohy v rovině mohou mít menší jistotu v jednom směru než v jiném. Stejně jako ve skalárním případě může vážený průměr z více odhadů poskytnout a maximální pravděpodobnost odhad. Jednoduše nahradíme rozptyl
podle kovarianční matice
a aritmetická inverze podle inverzní matice (oba označeny stejným způsobem, pomocí horních indexů); hmotnostní matice pak zní:[6]

Vážený průměr v tomto případě je:

(kde je pořadí maticový vektorový produkt není komutativní ), pokud jde o kovarianci váženého průměru:

Zvažte například vážený průměr bodu [1 0] s vysokou odchylkou v druhé složce a [0 1] s vysokou odchylkou v první složce. Pak
