Fowlkes – index slézů - Fowlkes–Mallows index
The Fowlkes – index slézů je externí hodnocení metoda, která se používá k určení podobnosti mezi dvěma shluky (shluky získané po a shlukovací algoritmus ) a také metriku k měření zmatené matice.[1] Tento míra podobnosti může být buď mezi dvěma hierarchické shluky nebo shlukování a srovnávací klasifikace. Vyšší hodnota indexu Fowlkes – Mallows naznačuje větší podobnost mezi klastry a srovnávacími klasifikacemi.
Předkola
The Fowlkes – index slézů, když jsou k vyhodnocení výsledků použity výsledky dvou klastrových algoritmů, je definováno jako[2]
- kde je počet skutečná pozitiva, je počet falešně pozitivní výsledky, a je počet falešné negativy. je skutečná kladná sazba, také zvaný citlivost nebo odvolání, a je pozitivní prediktivní míra, také známý jako přesnost.
Definice
Zvažte dvě hierarchická seskupení objekty označené a . Stromy a lze řezat na výrobu shluky pro každý strom (buď výběrem shluků v určité výšce stromu nebo nastavením jiné síly hierarchického shlukování). Pro každou hodnotu , lze vytvořit následující tabulku
kde je objektů společných mezi th shluk a th shluk . The Fowlkes – index slézů pro konkrétní hodnotu je pak definována jako
kde
pak lze vypočítat pro každou hodnotu a podobnost mezi těmito dvěma shluky lze ukázat vynesením proti . Pro každého my máme .
Fowlkes – index slézů lze také definovat na základě počtu bodů, které jsou společné nebo neobvyklé ve dvou hierarchických klastrech. Pokud definujeme
- jako počet párů bodů, které jsou přítomny ve stejném klastru v obou a .
- jako počet párů bodů, které jsou přítomny ve stejném klastru v ale ne v .
- jako počet párů bodů, které jsou přítomny ve stejném klastru v ale ne v .
- jako počet párů bodů, které jsou v obou v různých shlucích a .
Je možné ukázat, že čtyři počty mají následující vlastnost
a to Fowlkes – index slézů pro dvě shluky lze definovat jako[3]
- kde je počet skutečná pozitiva, je počet falešně pozitivní výsledky, a je počet falešné negativy.
- je skutečná kladná sazba, také zvaný citlivost nebo odvolání, a je pozitivní prediktivní míra, také známý jako přesnost.
- Index Fowlkes – Mallows je geometrický průměr z přesnost a odvolání.[4]
Diskuse
Vzhledem k tomu, že index je přímo úměrný počtu skutečných pozitiv, znamená vyšší index větší podobnost mezi dvěma shluky používanými k určení indexu. Jedním ze základních způsobů, jak otestovat platnost tohoto indexu, je porovnat dvě shluky, které spolu nesouvisejí. Fowlkes a Mallows ukázali, že při použití dvou nesouvisejících shluků se hodnota tohoto indexu blíží nule, protože se zvyšuje celkový počet datových bodů vybraných pro shlukování; zatímco hodnota pro Randův index pro stejná data se rychle blíží [1] Díky tomu je index Fowlkes – Mallows mnohem přesnější reprezentací nesouvisejících dat. Tento index také funguje dobře, pokud se do existující datové sady přidá šum a porovná se jejich podobnost. Fowlkes a Mallows ukázali, že hodnota indexu klesá, jak se zvyšuje složka hluku. Index také ukázal podobnost, i když hlučná datová sada měla jiný počet klastrů než klastry původní datové sady. Díky tomu je spolehlivým nástrojem pro měření podobnosti mezi dvěma klastry.
Reference
- ^ A b Fowlkes, E. B .; Mallows, C. L. (1. září 1983). "Metoda pro srovnání dvou hierarchických shluků". Journal of the American Statistical Association. 78 (383): 553. doi:10.2307/2288117.
- ^ Halkidi, Maria; Batistakis, Yannis; Vazirgiannis, Michalis (1. ledna 2001). "O technikách ověření shlukování". Journal of Intelligent Information Systems. 17 (2/3): 107–145. doi:10.1023 / A: 1012801612483.
- ^ MEILA, M (1. května 2007). "Porovnání shluků - vzdálenost založená na informacích". Journal of Multivariate Analysis. 98 (5): 873–895. doi:10.1016 / j.jmva.2006.11.013.
- ^ Tharwat A (srpen 2018). „Metody hodnocení klasifikace“. Aplikovaná výpočetní technika a informatika. doi:10.1016 / j.aci.2018.08.003.
Bibliografie
- Ramirez, E. H .; Brena, R .; Magatti, D .; Stella, F. (2010). "Pravděpodobnostní metriky pro měkké shlukování a ověření modelu tématu". Mezinárodní konference IEEE / WIC / ACM 2010 o webové inteligenci a technologii inteligentních agentů. str. 406. doi:10.1109 / WI-IAT.2010.148. ISBN 978-1-4244-8482-9.