Analýza více korespondence - Multiple correspondence analysis

v statistika, analýza vícenásobné korespondence (MCA) je analýza dat technika pro nominální kategorická data, používaná k detekci a reprezentaci základních struktur v datové sadě. Dělá to tak, že reprezentuje data jako body v nízkodimenzionálním Euklidovský prostor. Postup se tak jeví jako protějšek analýza hlavních komponent pro kategorická data.[1][2] MCA lze chápat jako rozšíření jednoduchého korespondenční analýza (CA) v tom, že je použitelná pro velkou sadu kategorických proměnných.

Jako rozšíření korespondenční analýzy

MCA se provádí použitím algoritmu CA buď na matici indikátorů (nazývanou také kompletní disjunktivní tabulka - CDT) nebo a Burtův stůl vytvořené z těchto proměnných.[3] Matice indikátorů je matice jednotlivců × proměnných, kde řádky představují jednotlivce a sloupce jsou fiktivní proměnné představující kategorie proměnných.[4] Analýza matice indikátorů umožňuje přímé znázornění jednotlivců jako bodů v geometrickém prostoru. Burtova tabulka je symetrická matice všech obousměrných křížových tabulek mezi kategorickými proměnnými a má analogii k kovarianční matice spojitých proměnných. Analýza Burtovy tabulky je přirozenějším zobecněním jednoduchého korespondenční analýza, a jednotlivce nebo prostředky skupin jednotlivců lze přidat jako doplňkové body ke grafickému zobrazení.

V přístupu indikátorové matice jsou asociace mezi proměnnými odhaleny výpočtem vzdálenosti chí-kvadrát mezi různými kategoriemi proměnných a mezi jednotlivci (nebo respondenty). Tato sdružení jsou poté graficky znázorněna jako „mapy“, což usnadňuje interpretaci struktur v datech. Poté se maximalizují opozice mezi řádky a sloupci, aby se odhalily základní dimenze, které nejlépe dokážou popsat centrální opozice v datech. Jako v faktorová analýza nebo analýza hlavních komponent, první osa je nejdůležitější dimenzí, druhá osa druhou nejdůležitější, atd., pokud jde o zohledněnou výši rozptylu. Počet os, které se mají ponechat pro analýzu, se stanoví výpočtem změněných vlastní čísla.

Detaily

Vzhledem k tomu, že MCA je přizpůsoben k vytváření statistických závěrů z kategoriálních proměnných (jako jsou otázky s výběrem možností), první věcí, kterou musíte udělat, je převést kvantitativní data (jako je věk, velikost, váha, denní čas atd.) Do kategorií (pomocí například statistické kvantily).

Když je datová sada zcela reprezentována jako kategorické proměnné, je možné sestavit odpovídající tzv. Zcela disjunktivní tabulku. Označujeme tuto tabulku . Li osoby odpověděly na průzkum s otázky s možností výběru, každá se 4 odpověďmi, budu mít řádky a sloupce.

Více teoreticky [5], předpokládejme je zcela disjunktivní tabulka pozorování kategorické proměnné. Předpokládejme také, že -tá proměnná mít různé úrovně (kategorie) a nastavit . Stůl je pak a matice se všemi součiniteli nebo . Nastavte součet všech položek z být a představit . V MCA existují také dva speciální vektory: první , který obsahuje součty v řádcích , a , který obsahuje součty ve sloupcích . Poznámka a , diagonální matice obsahující a jako diagonální. S těmito notacemi spočívá výpočet MCA v podstatě v rozkladu singulární hodnoty matice:

Rozklad dává ti , a takhle s P, Q dvě unitární matice a je zobecněná úhlopříčná matice singulárních hodnot (se stejným tvarem jako ). Kladné koeficienty jsou vlastní čísla z .

Zájem o MCA pochází ze způsobu, jakým jsou pozorování (řádky) a proměnné (sloupce) lze rozložit. Tento rozklad se nazývá faktorový rozklad. Souřadnice pozorování v prostoru faktoru jsou dány vztahem

The -té řady představují -té pozorování v faktorovém prostoru. A podobně jsou souřadnice proměnných (ve stejném faktorovém prostoru jako pozorování!) Dány vztahem

Nedávná díla a rozšíření

V posledních letech několik studentů Jean-Paul Benzécri zdokonalili MCA a začlenili jej do obecnějšího rámce analýzy dat známého jako analýza geometrických dat. To zahrnuje vývoj přímých spojení mezi jednoduchými korespondenční analýza, analýza hlavních komponent a MCA s formou shluková analýza známý jako euklidovská klasifikace.[6]

Dvě rozšíření mají skvělé praktické využití.

  • Je možné zahrnout jako aktivní prvky do MCA několik kvantitativních proměnných. Tato přípona se nazývá faktorová analýza smíšených dat (viz. níže).
  • V dotaznících jsou otázky velmi často strukturovány do několika čísel. Při statistické analýze je nutné tuto strukturu zohlednit. To je cílem vícefaktorové analýzy, která vyvažuje různé problémy (tj. Různé skupiny proměnných) v rámci globální analýzy a poskytuje kromě klasických výsledků faktoriální analýzy (hlavně grafiky jednotlivců a kategorií) několik výsledků (ukazatele a grafika) specifická pro strukturu skupiny.

Aplikační pole

V sociálních vědách je MCA pravděpodobně nejlépe známý pro svou aplikaci od Pierre Bourdieu,[7] zejména v jeho knihách La Distinction, Homo Academicus a Státní šlechta. Bourdieu tvrdil, že mezi jeho vizí sociálního jako prostorového a relačního - zachyceného pojmem pole a geometrické vlastnosti MCA.[8] Sociologové, kteří sledují Bourdieuovu práci, se nejčastěji rozhodují pro analýzu matice indikátorů, spíše než pro Burtovu tabulku, a to především kvůli ústřednímu významu přisuzovanému analýze „mraku jednotlivců“.[9]

Analýza více korespondence a analýza hlavních komponent

MCA lze také zobrazit jako PCA aplikovaný na celou disjunktivní tabulku. Chcete-li to provést, musí být CDT transformována následovně označují obecný pojem CDT. se rovná 1, pokud je to individuální má kategorii a 0, pokud ne. Označme , podíl jednotlivců patřících do dané kategorie Transformovaná CDT (TCDT) má obecný termín:

Nestandardizovaný PCA aplikovaný na TCDT, sloupec mít váhu , vede k výsledkům MCA.

Tato rovnocennost je plně vysvětlena v knize Jérôme Pagès.[10] Hraje důležitou teoretickou roli, protože otevírá cestu k současnému zpracování kvantitativních a kvalitativních proměnných. Dvě metody současně analyzují tyto dva typy proměnných: faktorová analýza smíšených dat a když jsou aktivní proměnné rozděleny do několika skupin: vícefaktorová analýza.

Tato rovnocennost neznamená, že MCA je zvláštní případ PCA, protože to není konkrétní případ CA. Znamená to jen to, že tyto metody jsou navzájem úzce propojeny, protože patří do stejné rodiny: faktoriální metody.[Citace je zapotřebí ]

Software

Existuje mnoho softwaru pro analýzu dat, které zahrnují MCA, jako jsou STATA a SPSS. Balíček R. FactoMineR také obsahuje MCA. Tento software souvisí s knihou popisující základní metody provádění MCA.[11]

Reference

  1. ^ Le Roux; B. a H. Rouanet (2004). Geometrická analýza dat, od analýzy korespondence po analýzu strukturovaných dat. Dordrecht. Kluwer: str. 180.
  2. ^ Greenacre, Michael a Blasius, Jörg (redakce) (2006). Analýza více korespondence a související metody. London: Chapman & Hall / CRC.CS1 maint: více jmen: seznam autorů (odkaz) CS1 maint: další text: seznam autorů (odkaz)
  3. ^ Greenacre, Michael (2007). Korespondenční analýza v praxi, druhé vydání. London: Chapman & Hall / CRC.
  4. ^ Le Roux, B. a H. Rouanet (2004), Geometric Data Analysis, From Correspondence Analysis to Structured Data Analysis, Dordrecht. Kluwer: str. 179
  5. ^ Hervé Abdi; Dominique Valentin (2007). „Analýza více korespondence“ (PDF).
  6. ^ Le Roux; B. a H. Rouanet (2004). Geometrická analýza dat, od analýzy korespondence po analýzu strukturovaných dat. Dordrecht. Kluwer.
  7. ^ Scott, John & Gordon Marshall (2009): Oxford Dictionary of Sociology, str. 135. Oxford: Oxford University Press
  8. ^ Rouanet, Henry (2000) „Geometrická analýza dotazníků. Lekce Bourdieuovy odlišnosti“, Bulletin de Méthodologie Sociologique 65, s. 4–18
  9. ^ Lebaron, Frédéric (2009) „Jak Bourdieu„ kvantifikoval “Bourdieu: Geometrické modelování dat“, Robson and Sanders (ed.) Kvantifikační teorie: Pierre Bourdieu. Springer, str. 11-30.
  10. ^ Pagès Jérôme (2014). Analýza více faktorů podle příkladu s použitím R.. Chapman & Hall / CRC R Series London 272 s
  11. ^ Husson F., Lê S. & Pagès J. (2009). Průzkumná vícerozměrná analýza podle příkladu pomocí R.. Chapman & Hall / CRC The R Series, London. ISBN  978-2-7535-0938-2

externí odkazy

  • Le Roux, B. a H. Rouanet (2004), Geometric Data Analysis, From Correspondence Analysis to Structured Data Analysis at Google Books: [1]
  • Greenacre, Michael (2008), La Práctica del Análisis de Correspondencias„BBVA Foundation, Madrid, je k dispozici ke stažení zdarma na webových stránkách nadace [2]
  • FactoMineR Software R věnovaný analýze průzkumných dat.