Davies – Bouldinův index - Davies–Bouldin index - Wikipedia
Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
The Davies – Bouldinův index (DBI), představený Davidem L. Daviesem a Donaldem W. Bouldinem v roce 1979, je metrikou hodnocení shlukovací algoritmy.[1] Toto je schéma interního hodnocení, kde se ověřuje, jak dobře bylo klastrování provedeno pomocí množství a funkcí inherentních datové sadě. To má nevýhodu, že dobrá hodnota hlášená touto metodou neznamená nejlepší načítání informací.[Citace je zapotřebí ]
Předkola
Dáno n rozměrové body, nechť Ci být shlukem datových bodů. Nechat Xj být n-dimenzionální vektor funkcí přiřazený klastru Ci.
Tady je těžiště z Ci a Ti je velikost klastru i. Si je míra rozptylu v klastru. Obvykle hodnota str je 2, což z toho dělá a Euklidovská vzdálenost funkce mezi těžištěm klastru a jednotlivými vektory funkcí. Lze použít i mnoho dalších metrik vzdálenosti rozdělovače a vyšší dimenzionální data, kde euklidovská vzdálenost nemusí být nejlepším měřítkem pro určení klastrů. Je důležité si uvědomit, že tato metrika vzdálenosti se musí pro smysluplné výsledky shodovat s metrikou použitou v samotném klastrovacím schématu.
- je míra oddělení mezi shlukem a shluk .
- je kth prvek , a v nich není n takových prvků A protože je to n dimenzionální těžiště.[nekonzistentní ]
Tady k indexuje vlastnosti dat, a to je v podstatě Euklidovská vzdálenost mezi středy klastrů i a j když str se rovná 2.
Definice
Nechat Rjá, j být měřítkem toho, jak dobrý je shlukovací systém. Toto opatření musí ze své podstaty odpovídat Mjá, j oddělení mezi ith a jth shluk, který v ideálním případě musí být co největší, a Si, rozptyl uvnitř klastru pro klastr i, který musí být co nejnižší. Proto je index Davies – Bouldin definován jako poměr Si a Mjá, j tak, aby byly zachovány tyto vlastnosti:
- .
- .
- Když a pak .
- Když a pak .
U této formulace platí, že čím nižší je hodnota, tím lepší je oddělení klastrů a „těsnost“ uvnitř klastrů.
Řešení, které splňuje tyto vlastnosti, je:
Používá se k definování Di:
Pokud N je počet klastrů:
DB se nazývá Davies – Bouldinův index. To závisí jak na datech, tak na algoritmu. Di zvolí nejhorší scénář a tato hodnota se rovná Rjá, j pro nejpodobnější klastr i. Mohlo by existovat mnoho variací této formulace, jako je výběr průměru podobnosti shluku, váženého průměru atd.
Vysvětlení
Tyto podmínky omezují takto definovaný index na symetrický a nezáporný. Kvůli způsobu, jakým je definován, jako funkce poměru rozptylu uvnitř klastru k oddělení mezi klastry bude nižší hodnota znamenat, že shlukování je lepší. Stává se to průměrná podobnost mezi každým klastrem a jeho nejpodobnějším, zprůměrovaná ve všech klastrech, kde je podobnost definována jako Si výše. To potvrzuje myšlenku, že žádný klastr nemusí být podobný jinému, a proto nejlepší klastrovací schéma v podstatě minimalizuje Davies-Bouldinův index. Takto definovaný index je průměrem za všechny i shluky, a proto je dobrým měřítkem rozhodování o tom, kolik klastrů ve datech skutečně existuje, je vykreslit je proti počtu klastrů, pro které se počítá. Číslo i pro které je tato hodnota nejnižší, je dobrým měřítkem počtu shluků, do kterých by bylo možné data ideálně zařadit. To má aplikace při rozhodování o hodnotě k v kmeans algoritmus, kde hodnota k není známa apriori. Sada nástrojů SOM obsahuje a MATLAB implementace.[2] Implementace MATLAB je také k dispozici prostřednictvím nástroje MATLAB Statistics and Machine Learning Toolbox pomocí příkazu „evalclusters“.[3] A Jáva implementace se nachází v ELKI a lze jej porovnat s mnoha dalšími indexy kvality shlukování.
Viz také
externí odkazy
- http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.17.2072
- https://books.google.com/books?id=HY8gB2OIqSoC
- http://nl.mathworks.com/help/stats/clustering.evaluation.daviesbouldinevaluation-class.html
Poznámky a odkazy
- ^ Davies, David L .; Bouldin, Donald W. (1979). „Opatření pro oddělení klastrů“. Transakce IEEE na analýze vzorů a strojové inteligenci. PAMI-1 (2): 224–227. doi:10.1109 / TPAMI.1979.4766909.
- ^ "Implementace Matlabu". Citováno 12. listopadu 2011.
- ^ „Evaluate clustering solutions - MATLAB evalclusters“.