Variace informací - Variation of information
v teorie pravděpodobnosti a teorie informace, variace informací nebo sdílená informační vzdálenost je míra vzdálenosti mezi dvěma shluky (oddíly prvků ). Je to úzce spjato s vzájemné informace; ve skutečnosti je to jednoduchý lineární výraz zahrnující vzájemnou informaci. Na rozdíl od vzájemné informace je však variace informací pravdivá metrický, v tom, že se řídí nerovnost trojúhelníku.[1][2][3]

Definice
Předpokládejme, že máme dva oddíly a a soubor disjunktní podmnožiny, jmenovitě a . Nechat , , , . Variace informací mezi těmito dvěma oddíly je pak:
- .
To je ekvivalentní s sdílená informační vzdálenost mezi náhodnými proměnnými i a j s ohledem na jednotné opatření pravděpodobnosti dne definován pro .
Výslovný informační obsah
Tuto definici můžeme přepsat výrazy, které výslovně zdůrazňují informační obsah této metriky.
Sada všech oddílů sady tvoří kompaktní soubor Mříž kde částečný řád vyvolá dvě operace, setkání a připojit se , kde je maximum je oddíl pouze s jedním blokem, tj. se všemi prvky seskupenými dohromady, a minimum je , oddíl skládající se ze všech prvků jako jednotlivé. Setkání dvou oddílů a je snadno pochopitelný jako oddíl tvořený všemi párovými průsečíky jednoho bloku, , z a jeden, , z . Z toho pak vyplývá a .
Pojďme definovat entropii oddílu tak jako
- ,
kde . Jasně, a . Entropie oddílu je monotónní funkce na mřížce oddílů v tom smyslu .
Pak vzdálenost VI mezi a je dána
- .
Rozdíl je pseudometrická jako to nutně neznamená . Z definice , to je .
Pokud v Hasseův diagram z každého oddílu nakreslíme maximum a přiřaďte jí váhu rovnající se vzdálenosti VI mezi danou přepážkou a , můžeme VI vzdálenost interpretovat jako v zásadě průměr rozdílů okrajových hmotností na maximum
- .
Pro jak je definováno výše, platí, že společné informace o dvou oddílech se shodují s entropií setkání
a také to máme se shoduje s podmíněnou entropií setkání (průsečík) ve vztahu k .
Totožnosti
Variace informací uspokojuje
- ,
kde je entropie z , a je vzájemné informace mezi a s ohledem na jednotné opatření pravděpodobnosti dne . To lze přepsat jako
- ,
kde je společná entropie z a nebo
- ,
kde a jsou příslušné podmíněné entropie.
Variaci informací lze také omezit, ať už jde o počet prvků:
- ,
Nebo s ohledem na maximální počet klastrů, :
Reference
- ^ P. Arabie, S.A. Boorman, S. A., „Multidimensional scaling of measures of distance between partitions“, Journal of Mathematical Psychology (1973), sv. 10, 2, str. 148–203, doi: 10,1016 / 0022-2496 (73) 90012-6
- ^ W.H. Zurek, Nature, sv. 341, str. 119 (1989); W.H. Zurek, Physics Review A, sv. 40, str. 4731 (1989)
- ^ Marina Meila, „Srovnávání shluků na základě variace informací“, Learning Theory and Kernel Machines (2003), sv. 2777, s. 173–187, doi:10.1007/978-3-540-45167-9_14, Přednášky v informatice, ISBN 978-3-540-40720-1
Další čtení
- Arabie, P .; Boorman, S.A. (1973). Msgstr "Vícerozměrné měřítko míry vzdálenosti mezi oddíly". Journal of Mathematical Psychology. 10 (2): 148–203. doi:10.1016/0022-2496(73)90012-6.
- Meila, Marina (2003). "Porovnání seskupení podle variace informací". Teorie učení a jádrové stroje. Přednášky z informatiky. 2777: 173–187. doi:10.1007/978-3-540-45167-9_14. ISBN 978-3-540-40720-1.
- Meila, M. (2007). "Porovnání shluků - vzdálenost založená na informacích". Journal of Multivariate Analysis. 98 (5): 873–895. doi:10.1016 / j.jmva.2006.11.013.
- Kingsford, Carl (2009). „Poznámky k teorii informací“ (PDF). Citováno 22. září 2009.
- Kraskov, Alexander; Harald Stögbauer; Ralph G. Andrzejak; Peter Grassberger (2003). "Hierarchické shlukování založené na vzájemných informacích". arXiv:q-bio / 0311039.
externí odkazy
- Partanalyzer zahrnuje implementaci VI a dalších metrik a indexů pro analýzu oddílů a klastrů v C ++
- Implementace C ++ se soubory MATLAB mex