Střední absolutní rozdíl - Mean absolute difference

The znamenat absolutní rozdíl (univariate) je a míra statistického rozptylu se rovná průměru absolutní rozdíl dvou nezávislých hodnot získaných z a rozdělení pravděpodobnosti. Související statistika je relativní průměr absolutní rozdíl, což je střední absolutní rozdíl dělený aritmetický průměr a rovná se dvojnásobku Giniho koeficient Průměrný absolutní rozdíl je také známý jako absolutní průměrný rozdíl (nezaměňovat s absolutní hodnota z znamená podepsaný rozdíl ) a Gini průměrný rozdíl (GMD).^[1] Střední absolutní rozdíl je někdy označen Δ nebo jako MD.

Definice

Střední absolutní rozdíl je definován jako „průměr“ nebo „průměr“, formálně očekávaná hodnota, absolutního rozdílu dvou náhodné proměnné X a Y nezávisle a identicky distribuovány se stejnou (neznámou) distribucí od nynějška Q.

{displaystyle mathrm {MD}: = E [| X-Y |].}

Výpočet

Konkrétně v diskrétním případě

Pro náhodný vzorek velikosti n populace rovnoměrně rozdělené podle Qtím, že zákon úplného očekávání (empirický) průměrný absolutní rozdíl v pořadí hodnot vzorku y_i, i = 1 až n lze vypočítat jako aritmetický průměr absolutní hodnoty všech možných rozdílů:

{displaystyle mathrm {MD} = E [| XY |] = E_ {X} [E_ {Y | X} [| XY |]] = {frac {1} {n ^ {2}}} součet _ {i = 1} ^ {n} součet _ {j = 1} ^ {n} | x_ {i} -y_ {j} |.}

-li Q má diskrétní pravděpodobnostní funkce F(y), kde y_i, i = 1 až n, jsou hodnoty s nenulovou pravděpodobností:

{displaystyle mathrm {MD} = součet _ {i = 1} ^ {n} součet _ {j = 1} ^ {n} f (y_ {i}) f (y_ {j}) | y_ {i} -y_ {j} |.}

V nepřetržitém případě

-li Q má funkce hustoty pravděpodobnosti F(X):

{displaystyle mathrm {MD} = int _ {- infty} ^ {infty} int _ {- infty} ^ {infty} f (x), f (y), | x-y |, dx, dy.}

-li Q má kumulativní distribuční funkce F(X) s kvantilová funkce Q(F), od té doby f (x) = dF (x) / dx a Q (F (x)) = x, z toho vyplývá, že:

{displaystyle mathrm {MD} = int _ {0} ^ {1} int _ {0} ^ {1} | Q (F_ {1}) - Q (F_ {2}) |, dF_ {1}, dF_ { 2}.}

Relativní průměrný absolutní rozdíl

Když má rozdělení pravděpodobnosti konečné a nenulové aritmetický průměr AM, relativní střední absolutní rozdíl, někdy označovaný jako Δ nebo RMD, je definován jako

{displaystyle mathrm {RMD} = {frac {mathrm {MD}} {mathrm {AM}}}.}

Relativní průměrný absolutní rozdíl kvantifikuje průměrný absolutní rozdíl ve srovnání s velikostí průměru a je bezrozměrnou veličinou. Relativní průměrný absolutní rozdíl se rovná dvojnásobku Giniho koeficient který je definován z hlediska Lorenzova křivka. Tento vztah poskytuje doplňkové pohledy jak na relativní průměrný absolutní rozdíl, tak na Giniho koeficient, včetně alternativních způsobů výpočtu jejich hodnot.

Vlastnosti

Průměrný absolutní rozdíl je neměnný vůči překladům a negaci a mění se proporcionálně k pozitivnímu měřítku. To znamená, pokud X je náhodná proměnná a C je konstanta:

MD (X + C) = MD (X),
MD (-X) = MD (X), a
MD (C X) = |C| MD (X).

Relativní průměrný absolutní rozdíl je invariantní k pozitivnímu měřítku, dojíždí s negací a mění se při překladu v poměru k poměru původního a přeloženého aritmetického průměru. To znamená, pokud X je náhodná proměnná a c je konstanta:

RMD (X + C) = RMD (X) · znamenat(X)/(znamenat(X) + C) = RMD (X) / (1 + C / znamenat(X)) pro C M −mean (X),
RMD (-X) = −RMD (X), a
RMD (C X) = RMD (X) pro C > 0.

Pokud má náhodná proměnná kladný průměr, bude její relativní průměrný absolutní rozdíl vždy větší nebo roven nule. Pokud navíc může náhodná proměnná nabrat pouze hodnoty, které jsou větší nebo rovny nule, bude její relativní průměrný absolutní rozdíl menší než 2.

Ve srovnání se směrodatnou odchylkou

Průměrný absolutní rozdíl je dvojnásobek Měřítko L. (druhý L-moment ), zatímco směrodatná odchylka je druhá odmocnina rozptylu o střední hodnotě (druhý konvenční centrální moment). Rozdíly mezi L-momenty a konvenčními momenty se nejprve projeví porovnáním průměrného absolutního rozdílu a směrodatné odchylky (první L-moment a první konvenční moment jsou oba průměrné).

Oba standardní odchylka a střední absolutní rozdíl měří rozptyl - jak jsou rozložené hodnoty populace nebo pravděpodobnosti distribuce. Střední absolutní rozdíl není definován z hlediska konkrétní míry centrální tendence, zatímco standardní odchylka je definována z hlediska odchylky od aritmetického průměru. Protože směrodatná odchylka umocňuje své rozdíly, má tendenci přikládat větší váhu větším rozdílům a menší váhu menším rozdílům ve srovnání se středním absolutním rozdílem. Když je aritmetický průměr konečný, bude absolutní průměrný rozdíl také konečný, i když je směrodatná odchylka nekonečná. Viz příklady pro některá konkrétní srovnání.

Nedávno představený směrodatná odchylka vzdálenosti hraje podobnou roli jako průměrný absolutní rozdíl, ale směrodatná odchylka vzdálenosti funguje se středovými vzdálenostmi. Viz také E-statistiky.

Ukázkové odhady

Pro náhodný vzorek S z náhodné proměnné X, skládající se z n hodnoty y_istatistika

{displaystyle mathrm {MD} (S) = {frac {sum _ {i = 1} ^ {n} součet _ {j = 1} ^ {n} | y_ {i} -y_ {j} |} {n ( n-1)}}}

je konzistentní a objektivní odhadce MD (X). Statistika:

{displaystyle mathrm {RMD} (S) = {frac {sum _ {i = 1} ^ {n} součet _ {j = 1} ^ {n} | y_ {i} -y_ {j} |} {(n -1) součet _ {i = 1} ^ {n} y_ {i}}}}

je konzistentní odhadce RMD (X), ale není obecně objektivní.

Intervaly spolehlivosti pro RMD (X) lze vypočítat pomocí technik vzorkování bootstrap.

Obecně neexistuje objektivní odhad RMD (X), zčásti kvůli obtížnosti nalezení nezaujatého odhadu pro vynásobení inverzí průměru. Například i tam, kde je známo, že je vzorek odebrán z náhodné proměnné X(p) za neznámé p, a $X (p) - 1$ má Bernoulliho distribuce, aby $Pr (X (p) = 1) = 1 - p$ a $Pr (X (p) = 2) = p$ , pak

RMD (X (p)) = 2 p (1 - p)/(1 + p)

.

Ale očekávaná hodnota jakéhokoli odhadce R(S) RMD (X(p)) bude ve tvaru:^{[Citace je zapotřebí ]}

{displaystyle operatorname {E} (R (S)) = součet _ {i = 0} ^ {n} p ^ {i} (1-p) ^ {n-i} r_ {i},}

Kde r _i jsou konstanty. Takže E (R(S)) se nikdy nemůže rovnat RMD (X(p)) pro všechny p mezi 0 a 1.

Příklady

Příklady průměrného absolutního rozdílu a relativního průměrného absolutního rozdílu
Rozdělení	Parametry	Znamenat	Standardní odchylka	Střední absolutní rozdíl	Relativní průměrný absolutní rozdíl
Kontinuální uniforma	${displaystyle a = 0; b = 1}$	${displaystyle 1/2 = 0,5}$	${displaystyle {frac {1} {sqrt {12}}} přibližně 0,2887}$	${displaystyle {frac {1} {3}} přibližně 0,3333}$	${displaystyle {frac {2} {3}} přibližně 0,6667}$
Normální	${displaystyle mu = 0}$ ; ${displaystyle sigma = 1}$	${displaystyle 0}$	${displaystyle 1}$	${displaystyle {frac {2} {sqrt {pi}}} přibližně 1,1284}$	${displaystyle {frac {2} {sqrt {pi}}} přibližně 1,1284}$
Exponenciální	${displaystyle lambda = 1}$	${displaystyle 1}$	${displaystyle 1}$	${displaystyle 1}$	${displaystyle 1}$
Pareto	${displaystyle k> 1}$ ; ${displaystyle x_ {m} = 1}$	${displaystyle {frac {k} {k-1}}}$	${displaystyle {frac {1} {k-1}}, {sqrt {frac {k} {k-2}}}}$ ext {pro} k> 2	${displaystyle {frac {2k} {(k-1) (2k-1)}},}$	${displaystyle {frac {2} {2k-1}},}$
Gama	${displaystyle k}$ ; ${displaystyle heta}$	${displaystyle k heta}$	${displaystyle {sqrt {k}}, heta}$	${displaystyle k heta (4I_ {0,5} (k + 1, k) -2)}$ †	${displaystyle 4I_ {0,5} (k + 1, k) -2}$ †
Gama	${displaystyle k = 1}$ ; ${displaystyle heta = 1}$	${displaystyle 1}$	${displaystyle 1}$	${displaystyle 1}$	${displaystyle 1}$
Gama	${displaystyle k = 2}$ ; ${displaystyle heta = 1}$	${displaystyle 2}$	${displaystyle {sqrt {2}} přibližně 1,4142}$	${displaystyle 3/2 = 1,5}$	${displaystyle 3/4 = 0,75}$
Gama	${displaystyle k = 3}$ ; ${displaystyle heta = 1}$	${displaystyle 3}$	${displaystyle {sqrt {3}} přibližně 1,7321}$	${displaystyle 15/8 = 1,875}$	${displaystyle 5/8 = 0,625}$
Gama	${displaystyle k = 4}$ ; ${displaystyle heta = 1}$	${displaystyle 4}$	${displaystyle 2}$	${displaystyle 35/16 = 2,1875}$	${displaystyle 35/64 = 0,546875}$
Bernoulli	${displaystyle 0leq pleq 1}$	${displaystyle p}$	${displaystyle {sqrt {p (1-p)}}}$	${displaystyle 2p (1-p)}$	${displaystyle 2 (1-p) {ext {for}} p> 0}$
Studentské t, 2 d.f.	${displaystyle u = 2}$	${displaystyle 0}$	${displaystyle infty}$	${displaystyle {frac {pi} {sqrt {2}}} přibližně 2,2214}$	nedefinováno

†

{displaystyle I_ {z} (x, y)}

je legalizovaná neúplná funkce Beta

Viz také

Reference

^ Yitzhaki, Shlomo (2003). „Giniho průměrný rozdíl: vynikající míra variability pro nenormální distribuce“ (PDF). Metron International Journal of Statistics. Springer Verlag. 61 (2): 285–316.

Xu, Kuan (leden 2004). „Jak se vyvinula literatura o Giniho indexu za posledních 80 let?“ (PDF). Katedra ekonomie, Dalhousie University. Citováno 2006-06-01. Citovat deník vyžaduje | deník = (Pomoc)
Gini, Corrado (1912). Variabilità e Mutabilità. Bologna: Tipografia di Paolo Cuppini.
Gini, Corrado (1921). „Měření nerovnosti a příjmů“. Ekonomický deník. 31 (121): 124–126. doi:10.2307/2223319. JSTOR 2223319.
Chakravarty, S. R. (1990). Čísla etického sociálního indexu. New York: Springer-Verlag.
Mills, Jeffrey A .; Zandvakili, Sourushe (1997). "Statistická inference pomocí bootstrappingu pro měření nerovnosti". Journal of Applied Econometrics. 12 (2): 133–150. CiteSeerX 10.1.1.172.5003. doi:10.1002 / (SICI) 1099-1255 (199703) 12: 2 <133 :: AID-JAE433> 3.0.CO; 2-H.
Lomnicki, Z. A. (1952). „Standardní chyba Giniho průměrného rozdílu“. Annals of Mathematical Statistics. 23 (4): 635–637. doi:10.1214 / aoms / 1177729346.
Nair, USA (1936). "Standardní chyba Giniho průměrného rozdílu". Biometrika. 28 (3–4): 428–436. doi:10.1093 / biomet / 28.3-4.428.
Yitzhaki, Shlomo (2003). „Gini's Mean difference: a superior measure of variability for non-normal distributions“ (PDF). Metron - International Journal of Statistics. 61: 285–316.

[1] Yitzhaki, Shlomo (2003). „Giniho průměrný rozdíl: vynikající míra variability pro nenormální distribuce“ (PDF). Metron International Journal of Statistics. Springer Verlag. 61 (2): 285–316.

[1]