Silueta (shlukování) - Silhouette (clustering)
Silueta odkazuje na metodu výkladu a ověřování konzistence uvnitř shluky dat. Tato technika poskytuje stručné grafické znázornění toho, jak dobře byl každý objekt klasifikován.[1]
Hodnota siluety je měřítkem toho, jak podobný je objekt vlastnímu shluku (soudržnost) ve srovnání s jinými shluky (oddělení). Silueta se pohybuje od -1 do +1, kde vysoká hodnota naznačuje, že objekt je dobře přiřazen k vlastnímu klastru a špatně k sousedním klastrům. Pokud má většina objektů vysokou hodnotu, je vhodná konfigurace klastrování. Pokud mnoho bodů má nízkou nebo zápornou hodnotu, může mít konfigurace clusterů příliš mnoho nebo příliš málo clusterů.
Siluetu lze vypočítat s jakoukoli vzdálenost metrické, například Euklidovská vzdálenost nebo Vzdálenost na Manhattanu.
Definice
Předpokládejme, že data byla seskupena pomocí jakékoli techniky, například k-prostředky, do shluky.
Pro datový bod (datový bod v klastru ), nechť
je střední vzdálenost mezi a všechny ostatní datové body ve stejném klastru, kde je vzdálenost mezi datovými body a v klastru (vydělíme protože nezahrnujeme vzdálenost v součtu). Můžeme tlumočit jako měřítko toho, jak dobře je přiřazen ke svému klastru (čím menší hodnota, tím lepší přiřazení).
Poté definujeme střední odlišnost bodu do nějakého klastru jako průměr vzdálenosti od do všech bodů v (kde ).
Pro každý datový bod , nyní definujeme
být nejmenší (odtud operátor ve vzorci) střední vzdálenost na všechny body v jakémkoli jiném klastru, z toho není členem. O klastru s touto nejmenší střední odlišností se říká, že je „sousedním klastrem“ protože je to další nejlépe vyhovující shluk pro bod .
Nyní definujeme a silueta (hodnota) jednoho datového bodu
- , pokud
a
- , pokud
Které lze také psát jako: