WPGMA - WPGMA
WPGMA (Žosmý Pvzduch Group Mzpůsob s Arithmetic Mean) je jednoduchý aglomerát (zdola nahoru) hierarchické shlukování metoda, obecně připisovaná Sokal a Michener.[1]
Metoda WPGMA je podobná té její nevážený varianta, UPGMA metoda.
Algoritmus
Algoritmus WPGMA vytvoří kořenový strom (dendrogram ), která odráží strukturu přítomnou v páru matice vzdálenosti (nebo a matice podobnosti ). V každém kroku řekněme nejbližší dva klastry a , jsou sloučeny do klastru vyšší úrovně . Pak jeho vzdálenost k dalšímu klastru je prostě aritmetický průměr průměrných vzdáleností mezi členy a a a :
Algoritmus WPGMA vytváří zakořeněné dendrogramy a vyžaduje předpoklad konstantní rychlosti: produkuje ultrametrický strom, ve kterém jsou vzdálenosti od kořene ke každému konci větve stejné. Tento ultrametricita předpoklad se nazývá molekulární hodiny když tipy zahrnují DNA, RNA a protein data.
Pracovní příklad
Tento pracovní příklad je založen na a JC69 genetická matice vzdálenosti počítaná z 5S ribozomální RNA seřazení sekvencí pěti bakterií: Bacillus subtilis (), Bacillus stearothermophilus (), Lactobacillus viridescens (), Acholeplasma modicum (), a Micrococcus luteus ().[2][3]
První krok
- První shlukování
Předpokládejme, že máme pět prvků a následující matice párových vzdáleností mezi nimi:
A | b | C | d | E | |
---|---|---|---|---|---|
A | 0 | 17 | 21 | 31 | 23 |
b | 17 | 0 | 30 | 34 | 21 |
C | 21 | 30 | 0 | 28 | 39 |
d | 31 | 34 | 28 | 0 | 43 |
E | 23 | 21 | 39 | 43 | 0 |
V tomto příkladu je nejmenší hodnota , takže spojujeme prvky a .
- Odhad délky první větve
Nechat označte uzel, ke kterému a jsou nyní připojeni. Nastavení zajišťuje, že prvky a jsou ve stejné vzdálenosti od . To odpovídá očekávání ultrametricita hypotéza. Spojení větví a na pak mají délky (viz závěrečný dendrogram )
- První aktualizace matice vzdálenosti
Poté pokračujeme v aktualizaci počáteční matice vzdálenosti do nové matice vzdálenosti (viz níže), zmenšená o jeden řádek a jeden sloupec kvůli shlukování s Tučné hodnoty v odpovídají novým vzdálenostem vypočítaným podle průměrné vzdálenosti mezi každým prvkem prvního klastru a každý ze zbývajících prvků:
Kurzíva hodnoty v nejsou ovlivněny aktualizací matice, protože odpovídají vzdálenostem mezi prvky, které nejsou zahrnuty v prvním klastru.
Druhý krok
- Druhé shlukování
Nyní zopakujeme tři předchozí kroky, počínaje novou maticí vzdálenosti :
(a, b) | C | d | E | |
---|---|---|---|---|
(a, b) | 0 | 25.5 | 32.5 | 22 |
C | 25.5 | 0 | 28 | 39 |
d | 32.5 | 28 | 0 | 43 |
E | 22 | 39 | 43 | 0 |
Tady, je nejmenší hodnota , takže se připojíme ke klastru a prvek .
- Odhad délky druhé větve
Nechat označte uzel, ke kterému a jsou nyní připojeni. Z důvodu omezení ultrametricity se větve spojují nebo na , a na jsou stejné a mají následující délku:
Dedukujeme délku chybějící větve: (viz závěrečný dendrogram )
- Aktualizace druhé matice vzdálenosti
Poté pokračujeme v aktualizaci matice do nové matice vzdálenosti (viz níže), zmenšená o jeden řádek a jeden sloupec kvůli shlukování s :
Za zmínku stojí toto průměrný výpočet nové vzdálenosti nepočítá s větší velikostí shluk (dva prvky) s ohledem na (jeden prvek). Podobně:
Postup zprůměrování proto dává diferenciální váhu počátečním vzdálenostem matice . To je důvod, proč metoda je vážený, ne s ohledem na matematický postup, ale s ohledem na počáteční vzdálenosti.
Třetí krok
- Třetí shlukování
Znovu opakujeme tři předchozí kroky, počínaje aktualizovanou maticí vzdálenosti .
((a, b), e) | C | d | |
---|---|---|---|
((a, b), e) | 0 | 32.25 | 37.75 |
C | 32.25 | 0 | 28 |
d | 37.75 | 28 | 0 |
Tady, je nejmenší hodnota , takže spojujeme prvky a .
- Odhad délky třetí větve
Nechat označte uzel, ke kterému a jsou nyní připojeny. Větve se připojují a na pak mají délky (viz závěrečný dendrogram )
- Aktualizace třetí matice vzdálenosti
Je třeba aktualizovat jednu položku:
Poslední krok
Finále matice je:
((a, b), e) | (CD) | |
---|---|---|
((a, b), e) | 0 | 35 |
(CD) | 35 | 0 |
Takže se připojujeme ke klastrům a .
Nechat označit (kořenový) uzel, ke kterému a jsou nyní připojeny a na pak mají délky:
Dedukujeme dvě zbývající délky větví:
Dendrogram WPGMA
Dendrogram je nyní dokončen. Je to ultrametrické, protože všechny tipy ( na ) jsou ve stejné vzdálenosti od :
Dendrogram je tedy zakořeněn pomocí , jeho nejhlubší uzel.
Srovnání s jinými vazbami
Mezi alternativní schémata propojení patří shlukování s jediným spojením, kompletní shlukování vazeb, a UPGMA klastrování průměrného propojení. Implementace jiného propojení je jednoduše otázkou použití jiného vzorce pro výpočet meziklastrových vzdáleností během kroků aktualizace matice vzdálenosti výše uvedeného algoritmu. Kompletní shlukování vazeb se vyhne nevýhodě alternativní metody shlukování jednoho propojení - tzv fenomén řetězení, kde mohou být klastry vytvořené prostřednictvím seskupení s jednou vazbou vynuceny společně kvůli tomu, že jednotlivé prvky jsou blízko u sebe, i když mnoho prvků v každém klastru může být od sebe velmi vzdálených. Kompletní propojení má tendenci najít kompaktní shluky přibližně stejných průměrů.[4]
Seskupování pomocí jednoho propojení. | Kompletní shlukování. | Průměrné shlukování vazeb: WPGMA. | Průměrné shlukování vazeb: UPGMA. |
Viz také
- Soused se připojil
- Molekulární hodiny
- Shluková analýza
- Seskupování pomocí jednoho propojení
- Kompletní shlukování
- Hierarchické shlukování
Reference
- ^ Sokal, Michener (1958). „Statistická metoda pro hodnocení systematických vztahů“. Vědecký bulletin University of Kansas. 38: 1409–1438.
- ^ Erdmann VA, Wolters J (1986). "Sbírka publikovaných 5S, 5,8S a 4,5S ribosomálních RNA sekvencí". Výzkum nukleových kyselin. 14 Suppl (Suppl): r1–59. doi:10.1093 / nar / 14.suppl.r1. PMC 341310. PMID 2422630.
- ^ Olsen GJ (1988). "Fylogenetická analýza pomocí ribozomální RNA". Metody v enzymologii. 164: 793–812. doi:10.1016 / s0076-6879 (88) 64084-5. PMID 3241556.
- ^ Everitt, B. S .; Landau, S .; Leese, M. (2001). Shluková analýza. 4. vydání. Londýn: Arnold. p. 62–64.