Dunnův index - Dunn index
The Dunnův index (DI) (představený J. C. Dunnem v roce 1974) je metrikou pro hodnocení shlukovací algoritmy.[1][2] Toto je část skupiny indexů platnosti, včetně Davies – Bouldinův index nebo Silueta index v tom, že se jedná o schéma interního hodnocení, kde je výsledek založen na samotných seskupených datech. Stejně jako všechny ostatní takové indexy je cílem identifikovat sady klastrů, které jsou kompaktní, s malou odchylkou mezi členy klastru a dobře oddělené, kde jsou prostředky různých klastrů dostatečně vzdálené ve srovnání s klastrem uvnitř rozptyl. U daného přiřazení klastrů označuje vyšší Dunnův index lepší klastrování. Jednou z nevýhod tohoto použití jsou výpočetní náklady, protože se zvyšuje počet klastrů a rozměrnost dat.
Předkola
Existuje mnoho způsobů, jak definovat velikost nebo průměr klastru. Může to být vzdálenost mezi nejvzdálenějšími dvěma body uvnitř klastru, může to být průměr všech párových vzdáleností mezi datovými body uvnitř klastru, nebo to může být také vzdálenost každého datového bodu od těžiště klastru. Každá z těchto formulací je matematicky uvedena níže:
Nechat Ci být shluk vektorů. Nechat X a y být libovolné dva ndimenzionální vektory funkcí přiřazené stejnému klastru Ci.
- , který vypočítá maximální vzdálenost.
- , který vypočítá střední vzdálenost mezi všemi páry.
- , vypočítá vzdálenost všech bodů ze střední hodnoty.
To lze také říci o vzdálenosti mezi klastry, kde lze vytvořit podobné formulace, a to buď pomocí nejbližších dvou datových bodů, jednoho v každém klastru, nebo nejvzdálenějších dvou, nebo vzdálenosti mezi centroidy atd. Definice indexu zahrnuje jakoukoli takovou formulaci a takto vytvořená skupina indexů se nazývá Dunnovy indexy. Nechat být touto metrickou vzdáleností mezi klastry mezi klastry Ci a Cj.
Definice
S výše uvedeným zápisem, pokud existují m shluky, pak je Dunnův index pro sadu definován jako:
- .
Vysvětlení
Tímto způsobem je definována DI záleží na m, počet klastrů v sadě. Pokud počet klastrů není apriori znám, m pro které DI je nejvyšší lze zvolit jako počet klastrů. Existuje také určitá flexibilita, pokud jde o definici d (x, y) kde lze použít kteroukoli ze známých metrik, jako Vzdálenost na Manhattanu nebo Euklidovská vzdálenost na základě geometrie problému shlukování. Tato formulace má zvláštní problém v tom, že pokud se jeden z klastrů chová špatně, zatímco ostatní jsou pevně zabaleni, protože jmenovatel obsahuje místo průměrného výrazu výraz „max“, bude Dunnův index pro tuto skupinu klastrů nezvykle nízká. Jedná se tedy o indikátor nejhoršího případu a je třeba ho mít na paměti. Existují připravené implementace Dunnova indexu v některých vektorových programovacích jazycích, jako je MATLAB, R a Apache Mahout.[3][4][5]
Poznámky a odkazy
- ^ Dunn, J. C. (1973-09-17). „Fuzzy příbuzný procesu ISODATA a jeho použití při detekci kompaktních dobře oddělených klastrů“. Journal of Kybernetics. 3 (3): 32–57. doi:10.1080/01969727308546046. S2CID 120919314.
- ^ Dunn, J. C. (01.09.1973). "Dobře oddělené klastry a optimální fuzzy oddíly". Journal of Kybernetics (publikováno 1974). 4 (1): 95–104. doi:10.1080/01969727408546059. ISSN 0022-0280.
- ^ „Implementace Dunn Indexu pomocí MATLABu“. Citováno 5. prosince 2011.
- ^ Lukasz, Nieweglowski. "Balíček 'clv'" (PDF). R projekt. CRAN. Citováno 2. dubna 2013.
- ^ "Apache Mahout". Softwarová nadace Apache. Citováno 9. května 2013.
externí odkazy
- Pakhira, Malay K .; Bandyopadhyay, Sanghamitra; Maulik, Ujjwal (2004). "Index platnosti pro ostré a fuzzy shluky". Rozpoznávání vzorů. 37 (3): 487–501. doi:10.1016 / j.patcog.2003.06.005.
- Bezdek, J.C .; Pal, N.R. (1995). "Ověření clusteru s generalizovanými Dunnovými indexy". Proceedings 1995 Druhá novozélandská mezinárodní dvouproudá konference o umělých neuronových sítích a expertních systémech. IEEE Xplore: 190–193. doi:10.1109 / ANNES.1995.499469. ISBN 0-8186-7174-2.
- Algoritmy platnosti klastru