Cophenetic korelace - Cophenetic correlation

v statistika, a to zejména v biostatistika, kofenetická korelace[1] (přesněji kofenetický korelační koeficient) je měřítkem toho, jak věrně a dendrogram zachovává párové vzdálenosti mezi původními nemodelovanými datovými body. Ačkoli to bylo nejvíce široce používáno v oblasti biostatistiky (obvykle k hodnocení klastrových modelů modelů DNA sekvence nebo jiné taxonomické modely), lze jej také použít v jiných oblastech dotazu, kde se nezpracovaná data obvykle vyskytují ve shlucích nebo shlucích.[2] Tento koeficient byl také navržen pro použití jako test pro vnořené klastry.[3]

Výpočet kofenetického korelačního koeficientu

Předpokládejme, že původní dataXi} byly modelovány pomocí klastrové metody k vytvoření dendrogramu {Ti}; tj. zjednodušený model, ve kterém jsou data, která jsou „blízká“, seskupena do hierarchického stromu. Definujte následující míry vzdálenosti.

  • X(i, j) = | XiXj |, běžná euklidovská vzdálenost mezi ith a jth postřehy.
  • t(i, j) = dendrogramová vzdálenost mezi body modelu Ti a Tj. Tato vzdálenost je výška uzlu, ve kterém jsou tyto dva body nejprve spojeny dohromady.

Pak necháme být průměrem X(i, j), a nechat být průměrem t(i, j), kofenetický korelační koeficient C je dána[4]

Implementace softwaru

Je možné vypočítat kofenetickou korelaci v R pomocí balíčku dendextend R. [1] nebo v Pythonu pomocí balíčku scipy [5].

Viz také

Reference

  1. ^ Sokal, R. R. a F. J. Rohlf. 1962. Srovnání dendrogramů objektivními metodami. Taxon, 11: 33-40
  2. ^ Dorthe B. Carr, Chris J. Young, Richard C. Aster a Xioabing Zhang, Klastrová analýza pro monitorování seismických událostí CTBT (studie připravená pro USA Ministerstvo energetiky )
  3. ^ Rohlf, F. J. a David L. Fisher. 1968. Test na hierarchickou strukturu v náhodných souborech dat. Systematic Zool., 17: 407-412 (odkaz )
  4. ^ Sada nástrojů pro statistiku Mathworks
  5. ^ „scipy.cluster.hierarchy.cophenet - referenční příručka SciPy v0.14.0“. docs.scipy.org. Citováno 2019-07-11.

externí odkazy