Mahalanobisova vzdálenost - Mahalanobis distance

The Mahalanobisova vzdálenost je míra vzdálenosti mezi bodem P a a rozdělení D, představil P. C. Mahalanobis v roce 1936.[1] Jedná se o vícerozměrné zobecnění myšlenky měřit kolik standardní odchylky pryč P je od znamenat D. Tato vzdálenost je nula, pokud P je ve střední hodnotě D, a roste s tím, jak se P pohybuje od střední hodnoty podél každé z nich hlavní složka osa. Pokud je každá z těchto os přeškálována tak, aby měla jednotkovou odchylku, odpovídá Mahalanobisova vzdálenost standardu Euklidovská vzdálenost v transformovaném prostoru. Mahalanobisova vzdálenost je tedy bez jednotky a scale-invariant, a bere v úvahu korelace z soubor dat.

Definice a vlastnosti

Mahalanobisova vzdálenost pozorování ze souboru pozorování s průměrem a kovarianční matice S je definován jako:[2]

Mahalanobisova vzdálenost (nebo „zobecněná čtvercová vzdálenost mezi body“ pro její druhou mocninu[3]) lze také definovat jako míru odlišnosti mezi dvěma náhodné vektory a stejné rozdělení s kovarianční matice S:

Pokud je kovarianční maticí matice identity, vzdálenost Mahalanobis se zmenší na Euklidovská vzdálenost. Pokud je kovarianční matice úhlopříčka, pak se výsledná míra vzdálenosti nazývá a standardizovaná euklidovská vzdálenost:

kde si je standardní odchylka z Xi a yi přes sadu vzorků.

Mahalanobisova vzdálenost je zachována při plnohodnotných lineárních transformacích prostoru překlenul podle údajů. To znamená, že pokud mají data netriviální prázdný prostor, lze vypočítat Mahalanobisovu vzdálenost po promítnutí dat (nedegenerovaně) dolů na libovolný prostor příslušné dimenze pro data.

Můžeme najít užitečné rozklady na druhou Mahalanobisovu vzdálenost, které pomohou vysvětlit některé důvody pro odlehlost vícerozměrných pozorování a také poskytnout grafický nástroj pro identifikaci odlehlých hodnot.[4]

Intuitivní vysvětlení

Zvažte problém odhadu pravděpodobnosti, na kterou test směřuje N-dimenzionální Euklidovský prostor patří do sady, kde dostáváme ukázkové body, které do této sady určitě patří. Naším prvním krokem by bylo najít těžiště nebo těžiště vzorkovacích bodů. Čím intuitivněji je čím blíže dotyčný bod k tomuto těžišti, tím je pravděpodobnější, že patří do množiny.

Musíme však také vědět, zda je množina rozložena na velký nebo malý rozsah, abychom mohli rozhodnout, zda je daná vzdálenost od středu pozoruhodná nebo ne. Zjednodušujícím přístupem je odhadnout standardní odchylka vzdáleností vzorkovacích bodů od těžiště. Pokud je vzdálenost mezi zkušebním bodem a těžištěm menší než jedna směrodatná odchylka, můžeme usoudit, že je vysoce pravděpodobné, že zkušební bod patří do množiny. Čím dále to je, tím je pravděpodobnější, že testovací bod by neměl být klasifikován jako patřící do sady.

Tento intuitivní přístup může být kvantitativní definováním normalizované vzdálenosti mezi testovacím bodem a soupravou, která má být . Zapojením do normálního rozdělení můžeme odvodit pravděpodobnost zkušebního bodu patřícího do sady.

Nevýhodou výše uvedeného přístupu bylo, že jsme předpokládali, že body vzorkování jsou distribuovány kolem těžiště sférickým způsobem. V případě, že rozdělení bude rozhodně nesférické, například elipsoidní, pak bychom očekávali, že pravděpodobnost zkušebního bodu patřícího do množiny bude záviset nejen na vzdálenosti od těžiště, ale také na směru. V těch směrech, kde má elipsoid krátkou osu, musí být testovací bod blíže, zatímco v těch, kde je osa dlouhá, může být testovací bod dále od středu.

Na matematickém základě lze elipsoid, který nejlépe reprezentuje rozdělení pravděpodobnosti množiny, odhadnout vytvořením kovarianční matice vzorků. Mahalanobisova vzdálenost je vzdálenost zkušebního bodu od těžiště dělená šířkou elipsoidu ve směru zkušebního bodu.

Normální rozdělení

Pro normální distribuce v libovolném počtu rozměrů hustota pravděpodobnosti pozorování je jednoznačně určena Mahalanobisovou vzdáleností .

Konkrétně následuje distribuce chí-kvadrát s stupně volnosti, kde je počet rozměrů normálního rozdělení. Pokud je například počet dimenzí 2, vypočítá se pravděpodobnost konkrétního být menší než nějaká prahová hodnota je . Chcete-li určit prahovou hodnotu k dosažení konkrétní pravděpodobnosti, , použijte , pro 2 rozměry. U počtu jiných dimenzí než 2 je třeba konzultovat kumulativní distribuci chí-kvadrát.

V normálním rozdělení je oblast, kde je vzdálenost Mahalanobis menší než jedna (tj. Oblast uvnitř elipsoidu ve vzdálenosti jedna), je přesně ta oblast, kde je rozdělení pravděpodobnosti konkávní.

Mahalanobisova vzdálenost je pro normální rozdělení úměrná druhé odmocnině pravděpodobnosti záporného logaritmu (po přidání konstanty, takže minimum je na nule).

Vztah k normálním náhodným proměnným

Obecně platí, že vzhledem k normální (Gaussian ) náhodná proměnná s odchylkou a zlý , jakákoli jiná normální náhodná proměnná (s průměrem a rozptyl ) lze definovat pomocí podle rovnice Naopak, k obnovení normalizované náhodné proměnné z jakékoli normální náhodné proměnné lze obvykle vyřešit . Pokud druhou stranu odmocníme a vezmeme druhou odmocninu, dostaneme rovnici pro metriku, která vypadá hodně jako Mahalanobisova vzdálenost:

Výsledná velikost je vždy nezáporná a mění se podle vzdálenosti dat od průměru, což jsou atributy, které jsou vhodné při pokusu o definování modelu pro data.

Vztah k pákovému efektu

Mahalanobisova vzdálenost úzce souvisí s statistika pákového efektu, , ale má jiné měřítko:[5]

Aplikace

Mahalanobisova definice byla vyvolána problémem identifikace podobností lebek na základě měření v roce 1927.[6]

Mahalanobisova vzdálenost je široce používána v shluková analýza a klasifikace techniky. Je to úzce spjato s Distribuce T-čtverce Hotelling používá se pro vícerozměrné statistické testování a Fishera Lineární diskriminační analýza který se používá pro kontrolovaná klasifikace.[7]

Aby bylo možné použít Mahalanobisovu vzdálenost ke klasifikaci zkušebního bodu jako patřícího do jedné z N tříd, první odhaduje kovarianční matici každé třídy, obvykle na základě vzorků, o nichž je známo, že patří do každé třídy. Poté, vzhledem k testovacímu vzorku, se vypočítá vzdálenost Mahalanobis pro každou třídu a klasifikuje testovací bod jako patřící do této třídy, pro kterou je vzdálenost Mahalanobis minimální.

Mahalanobisova vzdálenost a pákový efekt se často používají k detekci odlehlé hodnoty, zejména při vývoji lineární regrese modely. O bodu, který má větší Mahalanobisovu vzdálenost od zbytku populace vzorků bodů, se říká, že má vyšší pákový efekt, protože má větší vliv na sklon nebo koeficienty regresní rovnice. Mahalanobisova vzdálenost se také používá k určení vícerozměrných odlehlých hodnot. Pomocí regresních technik lze určit, zda je konkrétní případ v populaci vzorku odlehlý, a to kombinací dvou nebo více variabilních skóre. Dokonce i pro normální rozdělení může být bod vícerozměrným odlehlým bodem, i když pro každou proměnnou není jednorozměrným odlehlým bodem (zvažte hustotu pravděpodobnosti koncentrovanou podél přímky , například), což činí vzdálenost Mahalanobis citlivějším měřítkem než jednotlivá kontrola rozměrů.

Softwarové implementace

Mnoho programů a statistických balíčků, například R, Krajta atd., zahrnují implementace vzdálenosti Mahalanobis.

Jazyk / ProgramFunkcePoznámky
Rmahalanobis (x, center, cov, inverzní = FALSE, ...)Vidět [1]
SciPy (Krajta )mahalanobis (u, v, VI)Vidět [2]

Viz také

Reference

  1. ^ Mahalanobis, Prasanta Chandra (1936). „Zobecněná vzdálenost ve statistikách“ (PDF). Sborník Národního ústavu věd v Indii. 2 (1): 49–55. Citováno 2016-09-27.
  2. ^ De Maesschalck, R .; Jouan-Rimbaud, D .; Massart, D.L. "Mahalanobisova vzdálenost". Chemometrie a inteligentní laboratorní systémy. 50 (1): 1–18. doi:10.1016 / s0169-7439 (99) 00047-7.
  3. ^ Gnanadesikan, R .; Kettenring, J. R. (1972). "Robustní odhady, zbytky a detekce odlehlých hodnot s daty Multiresponse". Biometrie. 28 (1): 81–124. doi:10.2307/2528963. JSTOR  2528963.
  4. ^ Kim, M. G. (2000). "Vícerozměrné odlehlé hodnoty a rozklad Mahalanobisovy vzdálenosti". Komunikace ve statistice - teorie a metody. 29 (7): 1511–1526. doi:10.1080/03610920008832559.
  5. ^ Weiner, Irving B .; Schinka, John A .; Velicer, Wayne F. (23. října 2012). Příručka psychologie, Výzkumné metody v psychologii. John Wiley & Sons. ISBN  978-1-118-28203-8.
  6. ^ Mahalanobis, Prasanta Chandra (1927); Analýza rasové směsi v Bengálsku, Journal and Proceedings of the Asiatic Society of Bengal, 23: 301–333
  7. ^ McLachlan, Geoffrey (4. srpna 2004). Diskriminační analýza a rozpoznávání statistických vzorů. John Wiley & Sons. str. 13–. ISBN  978-0-471-69115-0.

externí odkazy