Loketní metoda (shlukování) - Elbow method (clustering) - Wikipedia
v shluková analýza, loketní metoda je heuristický použito v stanovení počtu klastrů v datové sadě. Tato metoda spočívá v vykreslení vysvětlená variace v závislosti na počtu klastrů a výběru loket křivky jako počet klastrů, které se mají použít. Stejnou metodu lze použít k výběru počtu parametrů v jiných modelech založených na datech, jako je například počet hlavní komponenty popsat soubor dat.
Metodu lze vysledovat ke spekulacím pomocí Robert L. Thorndike v roce 1953.[1]
Intuice
Použití „lokte“ nebo „koleno křivky „jako mezní bod je běžná heuristika v matematická optimalizace vybrat místo, kde klesající výnosy již nestojí za dodatečné náklady. V klastrování to znamená, že je třeba zvolit několik klastrů, takže přidání dalšího klastru neposkytuje mnohem lepší modelování dat.
Intuice spočívá v tom, že zvýšení počtu klastrů přirozeně zlepší přizpůsobení (vysvětlete více variant), protože existuje více parametrů (více klastrů), které lze použít, ale v určitém okamžiku to je nadměrně přiléhající a loket to odráží. Například daná data, která ve skutečnosti sestávají z k označené skupiny - například k body vzorkované s hlukem - shlukování s více než k shluky „vysvětlí“ více variací (protože mohou používat menší a těsnější shluky), ale je to nadměrné, protože rozděluje označené skupiny do více shluků. Myšlenka spočívá v tom, že první klastry přidají mnoho informací (vysvětlíme mnoho variací), protože data se skutečně skládají z těchto mnoha skupin (takže tyto klastry jsou nezbytné), ale jakmile počet klastrů překročí skutečný počet skupin v data, přidané informace prudce poklesnou, protože pouze rozdělují skutečné skupiny. Za předpokladu, že se to stane, bude v grafu vysvětlených variací versus shluky ostrý loket: rychle roste až k (nedostatečně vybavené region) a poté se pomalu zvyšuje k (přesahující region).
V praxi nemusí existovat ostrý loket a jako heuristická metoda nelze takový „loket“ vždy jednoznačně identifikovat.[2]
Opatření odchylky
Existují různá opatření „vysvětlená variace "použitý v metodě lokte. Nejčastěji varianí je vyčísleno variance a použitý poměr je poměr rozptylu mezi skupinami k celkovému rozptylu. Alternativně lze použít poměr rozptylu mezi skupinami k rozptylu uvnitř skupiny, který je jednosměrný ANOVA F-test statistika.[3]
Viz také
Reference
- ^ Robert L. Thorndike (Prosinec 1953). „Kdo patří do rodiny?“. Psychometrika. 18 (4): 267–276. doi:10.1007 / BF02289263.
- ^ Viz např. Ketchen, Jr., David J .; Shook, Christopher L. (1996). „Aplikace klastrové analýzy ve výzkumu strategického managementu: analýza a kritika“. Deník strategického řízení. 17 (6): 441–458. doi:10.1002 / (SICI) 1097-0266 (199606) 17: 6 <441 :: AID-SMJ819> 3.0.CO; 2-G.[mrtvý odkaz ]
- ^ Viz např. Obrázek 6 v
- Goutte, Cyril; Toft, Peter; Rostrup, Egill; Nielsen, Finn Årup; Hansen, Lars Kai (březen 1999). "On Clustering fMRI Time Series". NeuroImage. 9 (3): 298–310. CiteSeerX 10.1.1.29.2679. doi:10.1006 / nimg.1998.0391. PMID 10075900.
Tento počítačová věda článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |