Bhattacharyya vzdálenost - Bhattacharyya distance

v statistika, Bhattacharyya vzdálenost měří podobnost ze dvou rozdělení pravděpodobnosti. Úzce souvisí s Bhattacharyya koeficient což je míra míry překrytí mezi dvěma statistický vzorky nebo populace. Obě opatření jsou pojmenována po Anil Kumar Bhattacharya, a statistik který pracoval ve třicátých letech v Indický statistický institut.[1]

Koeficient lze použít k určení relativní blízkosti dvou uvažovaných vzorků. Používá se k měření oddělitelnosti tříd v klasifikace a považuje se za spolehlivější než Mahalanobisova vzdálenost, protože vzdálenost Mahalanobis je konkrétním případem vzdálenosti Bhattacharyya, když jsou standardní odchylky obou tříd stejné. V důsledku toho, když dvě třídy mají podobné prostředky, ale různé směrodatné odchylky, vzdálenost Mahalanobis by měla tendenci k nule, zatímco vzdálenost Bhattacharyya roste v závislosti na rozdílu mezi směrodatnými odchylkami.

Definice

Pro rozdělení pravděpodobnosti p a q přes to samé doména X, vzdálenost Bhattacharyya je definována jako

kde

je Bhattacharyya koeficient pro diskrétní rozdělení pravděpodobnosti.

Pro spojitá rozdělení pravděpodobnosti, koeficient Bhattacharyya je definován jako

V obou případech a . neposlouchá nerovnost trojúhelníku, ale Hellingerova vzdálenost, který je dán dodržuje nerovnost trojúhelníku.

Ve své nejjednodušší formulaci lze vypočítat Bhattacharyyovu vzdálenost mezi dvěma třídami při normálním rozdělení[2] extrakcí střední hodnoty a odchylek dvou samostatných distribucí nebo tříd:

kde:

je rozptyl p-tá distribuce,
je průměr z p-tá distribuce a
jsou dvě různé distribuce.

The Mahalanobisova vzdálenost použitý v Fisherově lineární diskriminační analýza je konkrétní případ vzdálenosti Bhattacharyya.

Pro vícerozměrný normální distribuce ,

kde a jsou prostředky a kovariance distribucí a

Všimněte si, že v tomto případě první člen ve vzdálenosti Bhattacharyya souvisí s Mahalanobisova vzdálenost.

Bhattacharyya koeficient

The Bhattacharyya koeficient je přibližný měření částky překrytí mezi dvěma statistický Vzorky. Koeficient lze použít k určení relativní blízkosti dvou uvažovaných vzorků.

Výpočet koeficientu Bhattacharyya zahrnuje základní formu integrace překrytí dvou vzorků. Interval hodnot dvou vzorků je rozdělen na zvolený počet oddíly, a počet členů každého vzorku v každém oddílu je použit v následujícím vzorci,

[3]

kde, s ohledem na vzorky p a q, n je počet oddílů a , jsou počty členů vzorků p a q v i-tý oddíl.

Tento vzorec je tedy větší s každým oddílem, který má členy z obou vzorků, a větší s každým oddílem, který má velké překrytí členů dvou vzorků v něm. Volba počtu oddílů závisí na počtu členů v každém vzorku; příliš málo oddílů ztratí přesnost nadhodnocením oblasti překrytí a příliš mnoho oddílů ztratí přesnost vytvořením jednotlivých oddílů bez členů, přestože jsou v hustě osídleném vzorovém prostoru.

Koeficient Bhattacharyya bude 0, pokud nedojde k žádnému překrytí kvůli násobení nulou v každém oddílu. To znamená, že vzdálenost mezi plně oddělenými vzorky nebude vystavena pouze tímto koeficientem.

Koeficient Bhattacharyya se používá při konstrukci polární kódy.[4]

Aplikace

Vzdálenost Bhattacharyya je široce používána při výzkumu extrakce a výběru prvků,[5] zpracování obrazu,[6] rozpoznávání reproduktorů,[7] a shlukování telefonů.[8]

Jako technika výběru prvků, která může být použita na segmentaci textury, byl navržen „prostor Bhattacharyya“.[9]

Viz také

Reference

  1. ^ Bhattacharyya, A. (1943). "Míra divergence mezi dvěma statistickými populacemi definovaná jejich pravděpodobnostním rozdělením". Věstník Kalkatská matematická společnost. 35: 99–109. PAN  0010358.
  2. ^ Guy B. Coleman, Harry C. Andrews, „Segmentace obrazu seskupením“, Proc IEEE, Sv. 67, č. 5, str. 773–785, 1979
  3. ^ D. Comaniciu, V. Ramesh, P. Meer, Sledování nerigidních objektů v reálném čase pomocí Mean Shift Archivováno 14.08.2010 na Wayback Machine, CENA ZA NEJLEPŠÍ PAPÍR, IEEE Conf. Počítačové vidění a rozpoznávání vzorů (CVPR'00), Hilton Head Island, South Carolina, sv. 2, 142–149, 2000
  4. ^ Arıkan, Erdal (červenec 2009). "Polarizace kanálu: Metoda konstrukce kódů pro dosažení kapacity pro symetrické kanály bez paměti s binárním vstupem". Transakce IEEE na teorii informací. 55 (7): 3051–3073. arXiv:0807.3917. doi:10.1109 / TIT.2009.2021379.
  5. ^ Euisun Choi, Chulhee Lee, „Extrakce prvků na základě vzdálenosti Bhattacharyya“, Rozpoznávání vzorů, Svazek 36, vydání 8, srpen 2003, strany 1703–1709
  6. ^ François Goudail, Philippe Réfrégier, Guillaume Delyon, „vzdálenost Bhattacharyya jako kontrastní parametr pro statistické zpracování hlučných optických obrazů“, JOSA A, Sv. 21, číslo 7, str. 1231–1240 (2004)
  7. ^ Chang Huai You, „Jádro SVM s GMM-Supervectorem na základě vzdálenosti Bhattacharyya pro rozpoznávání reproduktorů“, Dopisy pro zpracování signálu, IEEE, sv. 16, je 1, str. 49-52
  8. ^ Mak, B., "Shlukování telefonů pomocí vzdálenosti Bhattacharyya", Mluvený jazyk, 1996. ICSLP 96. Proceedings., Fourth International Conference on, Vol 4, pp. 2005–2008 vol.4, 3. – 6. Října 1996
  9. ^ Reyes-Aldasoro, C.C., a A. Bhalerao, „Bhattacharyya prostor pro výběr prvků a jejich použití na segmentaci textur“, Rozpoznávání vzorů, (2006) sv. 39, číslo 5, květen 2006, str. 812–826
  • Kailath, T. (1967). „Měření vzdálenosti Divergence a Bhattacharyya při výběru signálu“. Transakce IEEE na komunikační technologii. 15 (1): 52–60. doi:10.1109 / TCOM.1967.1089532.

externí odkazy