Konsenzuální shlukování - Consensus clustering
Konsenzuální shlukování je metoda agregace (potenciálně konfliktních) výsledků z více algoritmů shlukování. Také zvaný klastrové soubory[1] nebo agregace klastrování (nebo oddílů), týká se situace, ve které bylo pro konkrétní datový soubor získáno několik různých (vstupních) klastrů a je žádoucí najít jediné (konsensuální) klastrování, které je v některých smysl než stávající shlukování.[2] Konsenzuální shlukování je tedy problém sladit shlukovací informace o stejné datové sadě pocházející z různých zdrojů nebo z různých běhů stejného algoritmu. Když je obsaženo jako problém s optimalizací, je shoda shlukování známá jako střední oddíl a ukázalo se, že je NP-kompletní,[3] i když je počet vstupních shluků tři.[4] Konsenzuální shlukování pro učení bez dozoru je obdobné souborové učení v učení pod dohledem.
Problémy se stávajícími technikami vytváření klastrů
- Současné techniky vytváření klastrů dostatečně neodpovídají všem požadavkům.
- Řešení velkého počtu dimenzí a velkého počtu datových položek může být problematické z důvodu časové složitosti;
- Efektivita metody závisí na definici „vzdálenosti“ (pro seskupování podle vzdálenosti)
- Pokud zjevná míra vzdálenosti neexistuje, musíme ji „definovat“, což není vždy snadné, zejména v multidimenzionálních prostorech.
- Výsledek shlukovacího algoritmu (který může být v mnoha případech sám libovolný) lze interpretovat různými způsoby.
Odůvodnění použití shody shluků
U všech existujících technik vytváření klastrů existují potenciální nedostatky. To může způsobit, že interpretace výsledků bude obtížná, zejména pokud neexistují žádné znalosti o počtu klastrů. Metody klastrování jsou také velmi citlivé na počáteční nastavení klastrování, což může způsobit zesílení nevýznamných dat v nereiterativních metodách. Extrémně důležitým problémem v klastrové analýze je ověření výsledků klastrování, to znamená, jak získat důvěru v důležitost klastrů poskytovaných technikou klastrování (čísla klastrů a přiřazení klastrů). Chybí externí objektivní kritérium (ekvivalent známého označení třídy v analýze pod dohledem) a toto ověřování se stává poněkud nepolapitelným. Interaktivní sestupové metody seskupování, jako například SOM a k-znamená shlukování obejít některé z nedostatků hierarchické shlukování poskytnutím jednoznačně definovaných klastrů a hranic klastrů. Konsenzuální shlukování poskytuje metodu, která představuje shodu napříč několika běhy klastrového algoritmu, k určení počtu klastrů v datech a k posouzení stability objevených klastrů. Metodu lze také použít k vyjádření konsensu o více bězích klastrového algoritmu s náhodným restartem (jako je K-means, Bayesovské shlukování založené na modelu, SOM atd.), Aby se zohlednila jeho citlivost vůči počátečním podmínkám . Může poskytnout data pro vizualizační nástroj ke kontrole čísla klastru, členství a hranic. Chybí jim však intuitivní a vizuální přitažlivost hierarchických klastrových dendrogramů a počet klastrů je třeba zvolit a priori.
Montiho shlukovací algoritmus podle Montiho
Montiho shlukovací algoritmus podle Montiho[5] je jedním z nejpopulárnějších shlukovacích algoritmů konsensu a používá se k určení počtu klastrů, . Vzhledem k datové sadě celkový počet bodů do klastru, tento algoritmus funguje převzorkováním a seskupením dat pro každý z nich a a vypočítá se konsensuální matice, kde každý prvek představuje zlomek případů, kdy byly dva vzorky seskupeny dohromady. Dokonale stabilní matice by se skládala výhradně z nul a jedniček, představujících všechny dvojice vzorků, které se vždy shlukují dohromady nebo ne dohromady během všech opakovaných vzorkování. Pro odvození optimální lze použít relativní stabilitu konsensuálních matic .
Přesněji řečeno, vzhledem k sadě bodů ke shluku, , nechť být seznam pertubované (převzorkované) datové sady původního datového souboru a nechte označit matice konektivity vyplývající z použití klastrového algoritmu na datovou sadu . Záznamy z jsou definovány takto: