Energetická vzdálenost - Energy distance
![]() | tento článek příliš spoléhá na Reference na primární zdroje.Ledna 2011) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Energetická vzdálenost je statistická vzdálenost mezi rozdělení pravděpodobnosti. Pokud X a Y jsou nezávislé náhodné vektory v Rd s kumulativní distribuční funkce (cdf) F a G, pak je energetická vzdálenost mezi distribucemi F a G definována jako druhá odmocnina z
kde (X, X ', Y, Y') jsou nezávislé, cdf X a X 'je F, cdf Y a Y' je G, je očekávaná hodnota, a || . || označuje délka vektoru. Energetická vzdálenost splňuje všechny axiomy metrické, takže energetická vzdálenost charakterizuje rovnost distribucí: D (F, G) = 0, pokud a jen když F = G. Energetická vzdálenost pro statistické aplikace byla zavedena v roce 1985 autorem Gábor J. Székely, který to dokázal u náhodných proměnných se skutečnou hodnotou je přesně dvakrát Harald Cramér vzdálenost:[1]
Jednoduchý důkaz této rovnocennosti viz Székely (2002).[2]
Ve vyšších dimenzích se však tyto dvě vzdálenosti liší, protože energetická vzdálenost je neměnná rotace, zatímco Cramérova vzdálenost není. (Všimněte si, že Cramérova vzdálenost není stejná jako vzdálenost bez distribuce Kritérium Cramér – von Mises.)
Zobecnění na metrické prostory
Lze zobecnit pojem vzdálenosti energie na rozdělení pravděpodobnosti v metrických prostorech. Nechat být metrický prostor s jeho Borel sigma algebra . Nechat označují sbírku všech pravděpodobnostní opatření na měřitelný prostor . Pokud μ a ν jsou míry pravděpodobnosti v , pak energetická vzdálenost μ a ν lze definovat jako druhá odmocnina z
To však nemusí být nutně nezáporné. Li je tedy silně negativní definitivní jádro je metrický a naopak.[3] Tato podmínka je vyjádřena tím, že má negativní typ. Negativní typ není dostatečný pro být metrikou; druhá podmínka je vyjádřena tím, že má silný negativní typ. V této situaci je energetická vzdálenost nulová, právě když jsou X a Y shodně rozloženy. Příkladem metriky záporného typu, ale nikoli silného záporného typu, je rovina s metrika taxíku. Všechny euklidovské prostory a dokonce i oddělitelné Hilbertovy prostory mají silný negativní typ.[4]
V literatuře o metody jádra pro strojové učení, tyto zobecněné představy o energetické vzdálenosti jsou studovány pod názvem maximální střední odchylky. Rovnocennost metod založených na vzdálenosti a jádra pro testování hypotéz je pokryta několika autory.[5][6]
Energetické statistiky
Související statistický koncept, pojem E-statistika nebo energetická statistika[7] byl představen Gábor J. Székely v 80. letech, kdy přednášel na kolokviu v Budapešti v Maďarsku a na MIT, Yale a v Kolumbii. Tento koncept je založen na pojmu Newton's potenciální energie.[8] Myšlenkou je považovat statistická pozorování za nebeská těla se řídí statistikou potenciální energie což je nula, pouze když je podkladová statistika nulová hypotéza je pravda. Energetická statistika je funkcí vzdálenosti mezi statistickými pozorováními.
Energetická vzdálenost a E-statistika byly považovány za N-vzdálenosti a N-statistika v Zinger A.A., Kakosyan A.V., Klebanov L.B. Charakterizace distribucí pomocí středních hodnot některých statistik ve spojení s některými metrikami pravděpodobnosti, Problémy stability pro stochastické modely. Moskva, VNIISI, 1989, 47-55. (v ruštině), anglický překlad: Charakterizace distribucí středními hodnotami statistik a určitých pravděpodobnostních metrik A. A. Zinger, A. V. Kakosyan, L. B. Klebanov v Journal of Soviet Mathematics (1992). Ve stejném článku byla uvedena definice silně záporného konečného jádra a byla poskytnuta generalizace metrických prostorů, která byla diskutována výše. Kniha[3] dává tyto výsledky a jejich aplikace také ke statistickému testování. Kniha obsahuje také některé aplikace k obnovení opatření z jeho potenciálu.
Testování stejných distribucí
Uvažujme nulovou hypotézu, že dvě náhodné proměnné, X a Y, mají stejná rozdělení pravděpodobnosti: . Pro statistické vzorky z X a Y:
- a ,
následující aritmetické průměry vzdáleností jsou vypočítány mezi vzorky X a Y:
- .
E-statistika podkladové nulové hypotézy je definována takto:
Dá se dokázat[8][9] že a že odpovídající hodnota populace je nulová právě tehdy X a Y mají stejnou distribuci (). Podle této nulové hypotézy je statistika testu
konverguje v distribuci na kvadratickou formu nezávislého standardu normální náhodné proměnné. Podle alternativní hypotézy T inklinuje k nekonečnu. To umožňuje vytvořit konzistentní statistický test, energetický test pro stejná rozdělení.[10]
Lze také zavést E-koeficient nehomogenity. To je vždy mezi 0 a 1 a je definováno jako
kde označuje očekávaná hodnota. H = 0 přesně kdy X a Y mají stejnou distribuci.
Dobře padnoucí
Pro distribuce v libovolné dimenzi (není omezeno velikostí vzorku) je definováno vícerozměrné měřítko shody. Statistika energetické vhodnosti odpovídá
kde X a X 'jsou nezávislé a identicky distribuované podle předpokládaného rozdělení a . Jedinou požadovanou podmínkou je, že X má konečnou hodnotu moment pod nulovou hypotézou. Podle nulové hypotézy a asymptotická distribuce Qn je kvadratická forma centrovaných Gaussových náhodných proměnných. Podle alternativní hypotézy Qn má sklon k nekonečnu stochasticky, a tak určuje statisticky konzistentní test. U většiny aplikací lze použít exponent 1 (euklidovská vzdálenost). Důležitý speciální případ testování vícerozměrná normalita[9] je implementován v energie balíček pro R. Testy jsou vyvíjeny také pro distribuce s těžkým ocasem, jako je Pareto (mocenský zákon ), nebo stabilní distribuce aplikací exponentů v (0,1).
Aplikace
Aplikace zahrnují:
- Hierarchické shlukování (zobecnění Wardovy metody)[11][12]
- Testování vícerozměrné normality[9]
- Testování hypotézy více vzorků se stejným rozdělením,[13][14][15]
- Změňte detekci bodu[16]
- Vícerozměrná nezávislost:
- Pravidla bodování:
- Gneiting a Raftery[19] aplikujte energetickou vzdálenost a vytvořte nový a velmi obecný typ správného bodovacího pravidla pro pravděpodobnostní předpovědi, energetické skóre.
- Robustní statistiky[20]
- Výběr genů[21]
- Analýza dat microarray[22]
- Analýza struktury materiálu[23]
- Morfometrická a chemometrická data[24]
Aplikace energetické statistiky jsou implementovány v otevřeném zdroji energie balík[25] pro R.
Reference
- ^ Cramér, H. (1928) O složení elementárních chyb, Skandinavisk Aktuarietidskrift, 11, 141–180.
- ^ E-statistika: Energie statistických vzorků (2002) PDF
- ^ A b Klebanov, L. B. (2005) N-vzdálenosti a jejich aplikace, Karolinum Press, Univerzita Karlova, Praha.
- ^ Lyons, R. (2013). "Kovariance vzdálenosti v metrických prostorech". Letopisy pravděpodobnosti. 41 (5): 3284–3305. arXiv:1106.5758. doi:10.1214 / 12-aop803.
- ^ Sejdinovic, D .; Sriperumbudur, B .; Gretton, A. & Fukumizu, K. (2013). "Ekvivalence statistik založených na vzdálenosti a RKHS při testování hypotéz". Annals of Statistics. 41 (5): 2263–2291. arXiv:1207.6076. doi:10.1214 / 13-aos1140.
- ^ Shen, Cencheng; Vogelstein, Joshua T. (2018). "Přesná ekvivalence metod vzdálenosti a jádra pro testování hypotéz". arXiv:1806.05514. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ G. J. Szekely a M. L. Rizzo (2013). Energetická statistika: statistika založená na vzdálenostech. Journal of Statistical Planning and Inference Volume 143, Issue 8, August 2013, pp. 1249-1272. [1]
- ^ A b Székely, G.J. (2002) E-statistics: The Energy of Statistical Samples, Technical Report BGSU No 02-16.
- ^ A b C Székely, G. J .; Rizzo, M. L. (2005). "Nový test pro vícerozměrné normality". Journal of Multivariate Analysis. 93 (1): 58–80. doi:10.1016 / j.jmva.2003.12.002. Dotisk
- ^ G. J. Szekely a M. L. Rizzo (2004). Testování stejného rozdělení ve vysoké dimenzi, InterStat, Listopad (5). Dotisk.
- ^ Székely, G. J. a Rizzo, M. L. (2005) Hierarchické shlukování pomocí spojů mezi vzdálenostmi: Rozšíření metody minimální odchylky Warda, Journal of Classification, 22 (2) 151–183
- ^ Varin, T., Bureau, R., Mueller, C. a Willett, P. (2009). „Shlukování souborů chemických struktur pomocí Szekely-Rizzo zobecnění Wardovy metody“ (PDF). Journal of Molecular Graphics and Modeling. 28 (2): 187–195. doi:10.1016 / j.jmgm.2009.06.006. PMID 19640752.CS1 maint: více jmen: seznam autorů (odkaz) "eprint".
- ^ M. L. Rizzo a G. J. Székely (2010). DISCO analýza: Neparametrické rozšíření analýzy rozptylu, Annals of Applied Statistics Vol. 4, č. 2, 1034–1055. arXiv:1011.2288
- ^ Szekely, G. J. a Rizzo, M. L. (2004) Testing for Equal Distribuce ve vysoké dimenzi, InterStat, listopad (5). Dotisk.
- ^ Ledlie, Jonathan and Pietzuch, Peter and Seltzer, Margo (2006). Stabilní a přesné síťové souřadnice. Sovetskaia Meditsina. ICDCS '06. Washington, DC, USA: IEEE Computer Society. str. 74–83. CiteSeerX 10.1.1.68.4006. doi:10.1109 / ICDCS.2006.79. ISBN 978-0-7695-2540-2. PMID 1154085.CS1 maint: více jmen: seznam autorů (odkaz) PDF Archivováno 08.07.2011 na Wayback Machine
- ^ Albert Y. Kim; Caren Marzban; Donald B. Percival; Werner Stuetzle (2009). "Použití označených dat k vyhodnocení detektorů změn v prostředí vícerozměrného streamování". Zpracování signálu. 89 (12): 2529–2536. CiteSeerX 10.1.1.143.6576. doi:10.1016 / j.sigpro.2009.04.011. ISSN 0165-1684.[2]Předtisk: TR534.
- ^ Székely, G. J., Rizzo M. L. a Bakirov, N. K. (2007). "Měření a testování nezávislosti pomocí korelace vzdáleností", Annals of Statistics, 35, 2769–2794. arXiv:0803.4101
- ^ Székely, G. J. a Rizzo, M. L. (2009). "Brownianova vzdálenost kovariance", Annals of Applied Statistics, 3/4, 1233–1308. arXiv:1010.0297
- ^ T. Gneiting; A. E. Raftery (2007). "Přísně správná pravidla bodování, predikce a odhad". Journal of the American Statistical Association. 102 (477): 359–378. doi:10.1198/016214506000001437. Dotisk
- ^ Klebanov L.B. Třída metrik pravděpodobnosti a její statistické aplikace, Statistika v průmyslu a technologiích: Statistická analýza dat, Yadolah Dodge, Ed. Birkhauser, Basilej, Boston, Berlín, 2002, 241-252.
- ^ Statistika a analýza dat, 2006, 50, 12, 3619-3628Rui Hu, Xing Qiu, Galina Glazko, Lev Klebanov, Andrei Yakovlev Detection intergene correlation changes in microarray analysis: a new approach to gene selection, BMCBioinformatics, Vol.10, 20 ( 2009), 1-15.
- ^ Yuanhui Xiao, Robert Frisina, Alexander Gordon, Lev Klebanov, Andrei Yakovlev Multivariate Search for Differencely Expressed Gene Combinations BMC Bioinformatics, 2004, 5: 164; Antoni Almudevar, Lev Klebanov, Xing Qiu, Andrei Yakovlev Využití korelačních opatření při analýze genové exprese, In: NeuroRX, 2006, 3, 3, 384-395; Klebanov Lev, Gordon Alexander, Land Hartmut, Yakovlev Andrei Permutační test motivovaný analýzou dat microarray
- ^ Viktor Beneš, Radka Lechnerová, Lev Klebanov, Margarita Slamová, Peter Slama Statistické srovnání geometrie částic druhé fáze, Materials Characterization, Vol. 60 (2009), 1076 - 1081.
- ^ E. Vaiciukynas, A. Verikas, A. Gelzinis, M. Bacauskiene a I. Olenina (2015) Využití statistického energetického testu pro srovnání více skupin v morfometrických a chemometrických datech, Chemometrics and Intelligent Laboratory Systems, 146, 10-23.
- ^ „energy: R balíček verze 1.6.2“. Citováno 30. ledna 2015.