Statistická vzdálenost - Statistical distance
v statistika, teorie pravděpodobnosti, a teorie informace, a statistická vzdálenost kvantifikuje vzdálenost mezi dvěma statistickými objekty, které mohou být dva náhodné proměnné nebo dva rozdělení pravděpodobnosti nebo Vzorky nebo může být vzdálenost mezi jednotlivým vzorkovaným bodem a populací nebo širším vzorkem bodů.
Vzdálenost mezi populacemi lze interpretovat jako měření vzdálenosti mezi dvěma rozdělení pravděpodobnosti a proto jsou v zásadě měřítky vzdáleností mezi pravděpodobnostní opatření. Pokud statistická měření vzdálenosti souvisejí s rozdíly mezi náhodné proměnné, tyto mohou mít statistická závislost,[1] a proto tyto vzdálenosti přímo nesouvisejí s opatřeními vzdáleností mezi opatřeními pravděpodobnosti. Opět platí, že míra vzdálenosti mezi náhodnými proměnnými může souviset spíše s mírou závislosti mezi nimi, než s jejich individuálními hodnotami.
Statistické míry vzdálenosti většinou nejsou metriky a nemusí být symetrické. Některé typy měr vzdálenosti se označují jako (statistické) odchylky.
Terminologie
Mnoho termínů se používá k označení různých pojmů vzdálenosti; ty jsou často matoucí podobné a mohou být použity nekonzistentně mezi autory a v průběhu času, ať už volně nebo s přesným technickým významem. Kromě „vzdálenosti“ zahrnují i podobné výrazy deviace, odchylka, rozpor diskriminace a divergence, stejně jako další, jako je funkce kontrastu a metrický. Podmínky od teorie informace zahrnout křížová entropie, relativní entropie, informace o diskriminaci, a zisk informací.
Vzdálenosti jako metriky
Metriky
A metrický na setu X je funkce (volal funkce vzdálenosti nebo jednoduše vzdálenost)
d : X × X → R+(kde R+ je množina nezáporných reálná čísla ). Pro všechny X, y, z v X, tato funkce je vyžadována pro splnění následujících podmínek:
- d(X, y) ≥ 0 (nezápornost )
- d(X, y) = 0 pouze a jen tehdy X = y (totožnost nerozporných. Všimněte si, že podmínka 1 a 2 společně produkují pozitivní definitivnost )
- d(X, y) = d(y, X) (symetrie )
- d(X, z) ≤ d(X, y) + d(y, z) (subadditivita / nerovnost trojúhelníku ).
Zobecněné metriky
Mnoho statistických vzdáleností není metriky, protože jim chybí jedna nebo více vlastností správných metrik. Například, pseudometrika porušit „pozitivní definitivnost „(alternativně „identita nevyzpytatelných“ ) vlastnost (1 a 2 výše); kvazimetrika porušovat symetrie majetek (3); a semimetrics porušovat nerovnost trojúhelníku (4). Statistické vzdálenosti vyhovující bodům (1) a (2) se označují jako odchylky.
Příklady
Mezi důležité statistické vzdálenosti patří:
- f-divergence: zahrnuje
- Kullback – Leiblerova divergence
- Hellingerova vzdálenost
- Celková variační vzdálenost (někdy jen statistická vzdálenost)
- Rényiho divergence
- Jensen – Shannonova divergence
- Lévy – Prochorovova metrika
- Bhattacharyya vzdálenost
- Wassersteinova metrika: také známý jako metrika Kantorovich, nebo vzdálenost hybatelů Země
- The Statistika Kolmogorov – Smirnov představuje vzdálenost mezi dvěma rozděleními pravděpodobnosti definovanými na jedné reálné proměnné
- The maximální průměrná odchylka který je definován v podmínkách vložení distribucí do jádra
Další přístupy
- Poměr signálu k šumu vzdálenost
- Mahalanobisova vzdálenost
- Energetická vzdálenost
- Korelace vzdálenosti je míra závislosti mezi dvěma náhodné proměnné, je nula právě tehdy, jsou-li náhodné proměnné nezávislé.
- The průběžné seřazené skóre pravděpodobnosti měří, jak dobře předpovědi, které jsou vyjádřeny jako rozdělení pravděpodobnosti, odpovídají pozorovaným výsledkům. Při posuzování toho, jak blízko je distribuce pozorované hodnoty, se bere v úvahu jak umístění, tak rozpětí prognózovaného rozdělení: viz pravděpodobnostní prognóza.
- Łukaszyk – Karmowski metrika je funkce definující vzdálenost mezi dvěma náhodné proměnné nebo dva náhodné vektory. Neuspokojuje totožnost nerozporných podmínka metriky a je nula právě tehdy, jsou-li oba její argumenty určitými událostmi popsanými v Diracova delta hustota funkce rozdělení pravděpodobnosti.
Viz také
![]() | Tento článek obsahuje seznam obecných Reference, ale zůstává z velké části neověřený, protože postrádá dostatečné odpovídající vložené citace.Únor 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
![]() | tento článek potřebuje další citace pro ověření.Únor 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Poznámky
- ^ Dodge, Y. (2003) - vstup na dálku
externí odkazy
Reference
- Dodge, Y. (2003) Oxfordský slovník statistických pojmů, OUP. ISBN 0-19-920613-9