Seskupování pomocí jednoho propojení - Single-linkage clustering - Wikipedia
v statistika, shlukování s jedním spojením je jednou z několika metod hierarchické shlukování. Je založen na seskupování klastrů způsobem zdola nahoru (aglomerativní klastrování), přičemž v každém kroku kombinuje dva klastry, které obsahují nejbližší dvojici prvků, které dosud nepatří do stejného klastru.
Nevýhodou této metody je, že má tendenci vyrábět dlouhé tenké shluky, ve kterých blízké prvky stejné shluku mají malé vzdálenosti, ale prvky na opačných koncích shluku mohou být od sebe mnohem dále než dva prvky jiných shluků. To může vést k potížím s definováním tříd, které by mohly užitečně rozdělit data.[1]
Přehled metod shlukování aglomerací
Na začátku procesu shlukování aglomerací je každý prvek v klastru sám o sobě. Klastry jsou poté postupně kombinovány do větších klastrů, dokud všechny prvky neskončí ve stejném klastru. V každém kroku se spojí dva klastry oddělené nejkratší vzdáleností. Funkce použitá k určení vzdálenosti mezi dvěma klastry, známá jako funkce propojení, je to, co odlišuje aglomerativní metody shlukování.
V klastrování s jedním propojením je vzdálenost mezi dvěma klastry určena jedinou dvojicí prvků: těmito dvěma prvky (jeden v každém klastru), které jsou si navzájem nejblíže. Nejkratší z těchto párových vzdáleností, které zůstávají v kterémkoli kroku, způsobí sloučení dvou klastrů, jejichž prvky jsou zahrnuty. Tato metoda je také známá jako shlukování nejbližších sousedů. Výsledek shlukování lze vizualizovat jako dendrogram, který ukazuje sekvenci, ve které byly shluky sloučeny, a vzdálenost, ve které došlo ke každému sloučení.[2]
Matematicky funkce propojení - vzdálenost D(X,Y) mezi klastry X a Y - je popsán výrazem
kde X a Y jsou libovolné dvě sady prvků považovaných za shluky a d(X,y) označuje vzdálenost mezi dvěma prvky X a y.
Naivní algoritmus
Následující algoritmus je aglomerativní schéma, které vymaže řádky a sloupce v blízké matici, protože staré shluky jsou sloučeny do nových. The proximitní matice obsahuje všechny vzdálenosti . Seskupením jsou přiřazena pořadová čísla a je úroveň -th shlukování. Shluk s pořadovým číslem m je označen (m) a blízkost mezi klastry a je označen .
Algoritmus jednoduché vazby se skládá z následujících kroků:
- Začněte tím, že disjunktní klastrování má úroveň a pořadové číslo .
- Najděte nejpodobnější pár klastrů v aktuálním klastru, řekněme pár , podle kde je minimum nad všemi páry klastrů v aktuálním klastru.
- Zvyšte pořadové číslo: . Sloučit shluky a do jednoho klastru a vytvoří další klastrování . Nastavte úroveň tohoto shlukování na
- Aktualizujte přibližovací matici, odstraněním řádků a sloupců odpovídajících klastrům a a přidání řádku a sloupce odpovídající nově vytvořenému klastru. Blízkost mezi novým klastrem, označená a starý shluk je definován jako .
- Pokud jsou všechny objekty v jednom klastru, zastavte. Jinak přejděte na krok 2.
Pracovní příklad
Tento pracovní příklad je založen na a JC69 genetická matice vzdálenosti počítaná z 5S ribozomální RNA seřazení sekvencí pěti bakterií: Bacillus subtilis (), Bacillus stearothermophilus (), Lactobacillus viridescens (), Acholeplasma modicum (), a Micrococcus luteus ().[3][4]
První krok
- První shlukování
Předpokládejme, že máme pět prvků a následující matice párových vzdáleností mezi nimi:
A | b | C | d | E | |
---|---|---|---|---|---|
A | 0 | 17 | 21 | 31 | 23 |
b | 17 | 0 | 30 | 34 | 21 |
C | 21 | 30 | 0 | 28 | 39 |
d | 31 | 34 | 28 | 0 | 43 |
E | 23 | 21 | 39 | 43 | 0 |
V tomto příkladu je nejnižší hodnota , takže shlukujeme prvky a .
- Odhad délky první větve
Nechat označte uzel, ke kterému a jsou nyní připojeni. Nastavení zajišťuje, že prvky a jsou ve stejné vzdálenosti od . To odpovídá očekávání ultrametricita hypotéza. Spojení větví a na pak mají délky (viz závěrečný dendrogram )
- První aktualizace matice vzdálenosti
Poté pokračujeme v aktualizaci počáteční proximitní matice do nové matice blízkosti (viz níže), zmenšená o jeden řádek a jeden sloupec kvůli shlukování s Tučné hodnoty v odpovídají novým vzdálenostem, vypočteným zachováním minimální vzdálenost mezi každým prvkem prvního klastru a každý ze zbývajících prvků:
Kurzíva hodnoty v nejsou ovlivněny aktualizací matice, protože odpovídají vzdálenostem mezi prvky, které nejsou zahrnuty v prvním klastru.
Druhý krok
- Druhé shlukování
Nyní zopakujeme tři předchozí akce, počínaje novou maticí vzdálenosti :
(a, b) | C | d | E | |
---|---|---|---|---|
(a, b) | 0 | 21 | 31 | 21 |
C | 21 | 0 | 28 | 39 |
d | 31 | 28 | 0 | 43 |
E | 21 | 39 | 43 | 0 |
Tady, a jsou nejnižší hodnoty , takže se připojíme ke klastru s prvkem a s prvkem .
- Odhad délky druhé větve
Nechat označte uzel, ke kterému , a jsou nyní připojeni. Z důvodu omezení ultrametricity se větve spojují nebo na , a na , a také na jsou stejné a mají následující celkovou délku:
Dedukujeme délku chybějící větve: (viz závěrečný dendrogram )
- Aktualizace druhé matice vzdálenosti
Poté pokračujeme v aktualizaci matice do nové matice vzdálenosti (viz níže), zmenšená o dva řádky a dva sloupce kvůli shlukování s a s :
Poslední krok
Finále matice je:
((a, b), c, e) | d | |
---|---|---|
((a, b), c, e) | 0 | 28 |
d | 28 | 0 |
Takže se připojujeme ke klastrům a .
Nechat označit (kořenový) uzel, ke kterému a jsou nyní připojeny a na pak mají délky:
Odvodíme zbývající délku větve:
Dendrogram s jednou vazbou
Dendrogram je nyní dokončen. Je to ultrametrické, protože všechny tipy (, , , , a ) jsou ve stejné vzdálenosti od :
Dendrogram je tedy zakořeněn pomocí , jeho nejhlubší uzel.
Další vazby
Naivní algoritmus pro shlukování s jedinou vazbou je v podstatě stejný jako Kruskalův algoritmus pro minimální kostry. V klastrování s jedinou vazbou je však důležité pořadí, ve kterém se shluky vytvářejí, zatímco pro minimální kostry je důležitá sada dvojic bodů, které tvoří vzdálenosti zvolené algoritmem.
Mezi alternativní schémata propojení patří kompletní shlukování vazeb, průměrné shlukování vazeb (UPGMA a WPGMA ), a Wardova metoda. V naivním algoritmu pro aglomerativní klastrování může být implementace jiného schématu propojení provedena jednoduše pomocí jiného vzorce pro výpočet meziklastrových vzdáleností v algoritmu. Vzorec, který by měl být upraven, byl zvýrazněn pomocí tučného textu ve výše uvedeném popisu algoritmu. Efektivnější algoritmy, jako je ten, který je popsán níže, se však nezobecňují na všechna schémata propojení stejným způsobem.
Seskupování pomocí jednoho propojení. | Kompletní shlukování. | Průměrné shlukování vazeb: WPGMA. | Průměrné shlukování vazeb: UPGMA. |
Rychlejší algoritmy
Naivní algoritmus pro klastrování s jedním spojením je snadno pochopitelný, ale pomalý s časovou složitostí .[5] V roce 1973 R. Sibson navrhl algoritmus s časovou složitostí a prostorová složitost (oba optimální) známé jako SLINK. Algoritmus slink představuje shlukování na množině číslované položky dvěma funkcemi. Tyto funkce jsou určeny vyhledáním nejmenšího klastru který obsahuje obě položky a alespoň jednu položku s větším číslem. , mapuje položku na položku s největším číslem v klastru Druhá funkce, , mapuje položku na vzdálenost spojenou s vytvořením klastru Uložení těchto funkcí do dvou polí, která mapují každé číslo položky na hodnotu její funkce, zabírá místo a tyto informace jsou dostatečné k určení samotného shlukování. Jak ukazuje Sibson, když je do sady položek přidána nová položka, lze aktualizované funkce představující nové seskupení s jednou vazbou pro rozšířenou sadu, představované stejným způsobem, ze starého seskupení vytvořit v čase . Algoritmus SLINK se poté postupně přetahuje nad položkami a přidává je k reprezentaci shlukování.[6][7]
Alternativní algoritmus, běžící ve stejných optimálních časových a prostorových mezích, je založen na ekvivalenci mezi naivním algoritmem a Kruskalovým algoritmem pro minimální kostry. Místo použití Kruskalova algoritmu lze použít Primův algoritmus, ve variantě bez binárních hromad, která vyžaduje čas a vesmír zkonstruovat minimální kostru (ale ne shlukování) daných položek a vzdáleností. Poté aplikace Kruskalova algoritmu na řídký graf tvořený hranami minimálního kostry vytvoří vlastní shlukování v dalším čase a vesmír .[8]
Viz také
- Shluková analýza
- Kompletní shlukování
- Hierarchické shlukování
- Molekulární hodiny
- Soused se připojil
- UPGMA
- WPGMA
Reference
- ^ Everitt B (2011). Shluková analýza. Chichester, West Sussex, Velká Británie: Wiley. ISBN 9780470749913.
- ^ Legendre P, Legendre L (1998). Numerická ekologie. Vývoj environmentálního modelování. 20 (Second English ed.). Amsterdam: Elsevier.
- ^ Erdmann VA, Wolters J (1986). "Sbírka publikovaných 5S, 5,8S a 4,5S ribosomálních RNA sekvencí". Výzkum nukleových kyselin. 14 Suppl (Suppl): r1-59. doi:10.1093 / nar / 14.suppl.r1. PMC 341310. PMID 2422630.
- ^ Olsen GJ (1988). "Fylogenetická analýza pomocí ribozomální RNA". Metody v enzymologii. 164: 793–812. doi:10.1016 / s0076-6879 (88) 64084-5. PMID 3241556.
- ^ Murtagh F, Contreras P (2012). Msgstr "Algoritmy pro hierarchické shlukování: přehled". Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. Wiley Online knihovna. 2 (1): 86–97. doi:10,1002 / šířka 53.
- ^ Sibson R (1973). „SLINK: optimálně efektivní algoritmus pro metodu clusteru s jedním odkazem“ (PDF). Počítačový deník. Britská počítačová společnost. 16 (1): 30–34. doi:10.1093 / comjnl / 16.1.30.
- ^ Gan G (2007). Shlukování dat: teorie, algoritmy a aplikace. Philadelphia, Pa. Alexandria, Va: SIAM, Americká statistická asociace pro společnost pro průmyslovou a aplikovanou matematiku. ISBN 9780898716238.
- ^ Gower JC, Ross GJ (1969). "Minimum spanning trees and single linkge cluster analysis". Journal of the Royal Statistical Society, Series C. 18 (1): 54–64. doi:10.2307/2346439. JSTOR 2346439. PAN 0242315..