Centrální tendence - Central tendency
v statistika, a centrální tendence (nebo míra centrální tendence) je ústřední nebo typická hodnota pro a rozdělení pravděpodobnosti.[1] Může se také nazývat a centrum nebo umístění distribuce. Hovorově se často nazývají opatření centrální tendence průměry. Termín centrální tendence pochází z konce 20. let 20. století.[2]
Nejběžnějšími opatřeními centrální tendence jsou aritmetický průměr, medián a režimu. Střední tendenci lze vypočítat buď pro konečnou množinu hodnot, nebo pro teoretické rozdělení, například normální distribuce. Autoři občas používají centrální tendenci k označení „tendence kvantitativní data shlukovat kolem nějaké centrální hodnoty. “[2][3]
Centrální tendence distribuce je obvykle v kontrastu s její disperze nebo variabilita; disperze a centrální tendence jsou často charakterizované vlastnosti distribucí. Analýza může posoudit, zda mají data silnou nebo slabou centrální tendenci na základě jejich rozptylu.
Opatření
Na jednorozměrná data lze použít následující. V závislosti na okolnostech může být vhodné data před výpočtem centrální tendence transformovat. Jako příklady lze uvést druhou mocninu hodnot nebo logaritmy. Zda je transformace vhodná a co by měla být, závisí do značné míry na analyzovaných datech.
- Aritmetický průměr nebo jednoduše znamenat
- součet všech měření dělený počtem pozorování v datové sadě.
- Medián
- střední hodnota, která odděluje horní polovinu od spodní poloviny souboru dat. Medián a režim jsou jedinými měřítky centrální tendence, které lze použít pořadová data, ve kterých jsou hodnoty vzájemně seřazeny, ale nejsou měřeny absolutně.
- Režim
- nejčastější hodnota v souboru dat. Toto je jediné měřítko centrální tendence, které lze použít nominální údaje, které mají čistě kvalitativní přiřazení kategorií.
- Geometrický průměr
- the nth kořen produktu datových hodnot, pokud existují n z nich. Toto opatření je platné pouze pro data, která jsou měřena absolutně v přísně pozitivním měřítku.
- Harmonický průměr
- the reciproční aritmetického průměru převrácených hodnot dat. Toto opatření je platné pouze pro data, která jsou měřena absolutně v přísně pozitivním měřítku.
- Vážený aritmetický průměr
- aritmetický průměr, který zahrnuje vážení určitých datových prvků.
- Zkrácený průměr nebo oříznutý průměr
- aritmetický průměr datových hodnot po určitém počtu nebo podílu nejvyšších a nejnižších hodnot dat byl zahozen.
- Mezikvartilní průměr
- zkrácený průměr na základě údajů v rámci Rozsah interkvartilní.
- Střední pásmo
- aritmetický průměr z maximální a minimální hodnoty souboru dat.
- Midhinge
- aritmetický průměr prvního a třetího kvartily.
- Trimean
- vážený aritmetický průměr mediánu a dvou kvartilů.
- Winsorized průměr
- aritmetický průměr, ve kterém extrémní hodnoty jsou nahrazeny hodnotami bližšími k mediánu.
Na každou dimenzi vícerozměrných dat lze použít kteroukoli z výše uvedených možností, ale výsledky nemusí být invariantní vůči rotacím vícerozměrného prostoru. Kromě toho existují
- Geometrický medián
- což minimalizuje součet vzdáleností k datovým bodům. To je stejné jako medián při použití na jednorozměrná data, ale není to totéž, jako když si vezmeme medián každé dimenze samostatně. Není invariantní k různým změnám měřítka různých dimenzí.
- Kvadratický průměr (často známý jako střední kvadratická )
- užitečné ve strojírenství, ale ve statistikách se často nepoužívá. Je to proto, že to není dobrý indikátor středu distribuce, když distribuce zahrnuje záporné hodnoty.
- Jednoduchá hloubka
- pravděpodobnost, že náhodně vybrán simplexní s vrcholy z dané distribuce bude obsahovat daný střed
- Tukey medián
- bod s vlastností, že každý poloviční prostor, který ho obsahuje, obsahuje také mnoho ukázkových bodů
Řešení variačních problémů
Několik opatření centrální tendence lze charakterizovat jako řešení variačního problému ve smyslu variační počet, a to minimalizace odchylek od středu. To znamená, vzhledem k míře statistická disperze, jeden žádá o míru centrální tendence, která minimalizuje variaci: taková, že variace od středu je minimální u všech možností centra. V vtipu, „disperze předchází umístění“. Tyto míry jsou zpočátku definovány v jedné dimenzi, ale lze je zobecnit na více dimenzí. Toto centrum může, ale nemusí být jedinečné. Ve smyslu Lp mezery, korespondence je:
Lp | disperze | centrální tendence |
---|---|---|
L0 | variační poměr | režimu[A] |
L1 | průměrná absolutní odchylka | medián (geometrický medián )[b] |
L2 | standardní odchylka | znamenat (těžiště )[C] |
L∞ | maximální odchylka | střední pásmo[d] |
Přidružené funkce se nazývají p-normy: 0– „norma“, 1-norma, 2-norma a ∞-norma. Funkce odpovídající L0 prostor není normou, a proto se na něj často odkazuje v uvozovkách: 0- „norma“.
V rovnicích pro danou (konečnou) datovou sadu X, myšlenka jako vektor X = (X1,…,Xn), disperze kolem bodu C je „vzdálenost“ od X na konstantní vektor C = (C,…,C) v p-norm (normalizováno počtem bodů n):
Pro p = 0 a p = ∞ tyto funkce jsou definovány převzetím limitů, resp p → 0 a p → ∞. Pro p = 0 mezní hodnoty jsou 00 = 0 a A0 = 0 nebo A ≠ 0, takže rozdíl se stane jednoduše rovností, takže 0-norma počítá počet nerovné bodů. Pro p = ∞ dominuje největší počet, a tedy ∞-norma je maximální rozdíl.
Jedinečnost
Průměr (L2 střed) a střední pásmo (L∞ centrum) jsou jedinečné (pokud existují), zatímco medián (L1 střed) a režim (L0 centrum) nejsou obecně jedinečné. To lze chápat ve smyslu konvexnost souvisejících funkcí (donucovací funkce ).
2-norma a ∞-norma jsou přísně konvexní, a tedy (konvexní optimalizací) je minimalizátor jedinečný (pokud existuje) a existuje pro omezené distribuce. Směrodatná odchylka od průměru je tedy nižší než směrodatná odchylka od kteréhokoli jiného bodu a maximální odchylka od středního pásma je nižší než maximální odchylka od kteréhokoli jiného bodu.
1-norma není přísně konvexní, zatímco k zajištění jedinečnosti minimalizátoru je nutná přísná konvexnost. Odpovídajícím způsobem není medián (v tomto smyslu minimalizace) obecně jedinečný a ve skutečnosti jakýkoli bod mezi dvěma centrálními body diskrétního rozdělení minimalizuje průměrnou absolutní odchylku.
0- „norma“ není konvexní (tedy není normou). Odpovídajícím způsobem není režim jedinečný - například v jednotném rozdělení žádný bod je režim.
Shlukování
Místo jediného centrálního bodu lze požádat o více bodů, aby se minimalizovala odchylka od těchto bodů. Tohle vede k shluková analýza, kde je každý bod v datové sadě seskupen s nejbližším „středem“. Nejčastěji použití 2-normy zobecňuje průměr na k- znamená shlukování, při použití 1-normy zobecňuje (geometrický) medián na k-mediánové shlukování. Použití 0-normy jednoduše zobecní režim (nejběžnější hodnotu) na použití k nejběžnější hodnoty jako centra.
Na rozdíl od statistik s jedním centrem nelze toto multicentrické shlukování obecně vypočítat v a uzavřený výraz, a místo toho musí být vypočítány nebo aproximovány znakem iterační metoda; jeden obecný přístup je algoritmy očekávání – maximalizace.
Informační geometrie
Pojem „střed“ jako minimalizace variací lze zobecnit informační geometrie jako distribuce, která minimalizuje divergence (zobecněná vzdálenost) z datové sady. Nejběžnějším případem je odhad maximální věrohodnosti, kde odhad maximální pravděpodobnosti (MLE) maximalizuje pravděpodobnost (minimalizuje očekávané hodnoty) překvapení ), které lze interpretovat geometricky pomocí entropie měřit variace: MLE minimalizuje křížová entropie (ekvivalentně, relativní entropie, Kullback – Leiblerova divergence).
Jednoduchý příklad je pro střed nominálních dat: místo použití režimu (jediné jednohodnotové „centrum“) se často používá empirická míra (dále jen rozdělení frekvence děleno velikost vzorku ) jako „střed“. Například zadáno binární data řekněme hlavy nebo ocasy, pokud se datová sada skládá ze 2 hlav a 1 ocasu, pak je režim „hlavy“, ale empirické měřítko je 2/3 hlavy, 1/3 ocasy, což minimalizuje křížovou entropii (celkové překvapení ) ze souboru dat. Tato perspektiva se také používá v regresní analýza, kde nejmenší čtverce najde řešení, které minimalizuje vzdálenosti od něj, a analogicky v logistická regrese, odhad maximální pravděpodobnosti minimalizuje překvapení (informační vzdálenost).
Vztahy mezi průměrem, mediánem a módem
Pro unimodální distribuce následující hranice jsou známé a jsou ostré:[4]
kde μ je průměr, ν je medián, θ je režim a σ je směrodatná odchylka.
Viz také
Poznámky
- ^ Na rozdíl od ostatních měr režim nevyžaduje žádnou geometrii na množině, a proto platí stejně v jedné dimenzi, více dimenzích nebo dokonce pro kategorické proměnné.
- ^ Medián je definován pouze v jedné dimenzi; geometrický medián je vícerozměrné zobecnění.
- ^ Průměr lze definovat shodně pro vektory ve více dimenzích jako pro skaláry v jedné dimenzi; vícerozměrná forma se často nazývá těžiště.
- ^ Ve více dimenzích lze střední pásmo definovat po souřadnicích (vezměte střed každé souřadnice), i když to není běžné.
Reference
- ^ Weisberg H.F (1992) Centrální tendence a variabilitaSage University Paper Series o kvantitativních aplikacích ve společenských vědách, ISBN 0-8039-4007-6 str.2
- ^ A b Upton, G .; Cook, I. (2008) Oxfordský statistický slovník, OUP ISBN 978-0-19-954145-4 (položka pro „centrální tendenci“)
- ^ Dodge, Y. (2003) Oxfordský slovník statistických pojmů, OUP pro Mezinárodní statistický institut. ISBN 0-19-920613-9 (položka pro „centrální tendenci“)
- ^ Johnson NL, Rogers CA (1951) „Momentální problém pro unimodální distribuce“. Annals of Mathematical Statistics, 22 (3) 433–439
- ^ Hotelling H, Solomons LM (1932) Meze míry šikmosti. Annals Math Stat 3, 141–114
- ^ Garver (1932) Co se týče hranic mezeare skewness. Statistiky Ann Math 3 (4) 141–142