Log-lineární analýza - Log-linear analysis - Wikipedia
Log-lineární analýza je technika používaná v statistika zkoumat vztah mezi více než dvěma kategorické proměnné. Tato technika se používá pro oba testování hypotéz a modelování. V obou těchto použitích jsou modely testovány, aby se našel nejparsimoničtější (tj. Nejméně složitý) model, který nejlépe odpovídá rozptylu pozorovaných frekvencí. (A Pearsonův test chí-kvadrát lze použít místo log-lineární analýzy, ale tato technika umožňuje srovnávat pouze dvě proměnné najednou.[1])
Kritérium přizpůsobení
Log-lineární analýza používá a míra pravděpodobnosti statistický který má přibližnou hodnotu distribuce chí-kvadrát když je velikost vzorku velká:[2]
kde
- přirozený logaritmus;
- pozorovaná frekvence v buňceij (i = řádek a j = sloupec);
- očekávaná frekvence v buňceij.
- the deviace pro model.[3]
Předpoklady
Log-lineární analýza má tři předpoklady:[2]
1. Připomínky jsou nezávislý a náhodný;
2. Pozorované frekvence jsou normálně rozděleny kolem očekávaných frekvencí na opakované vzorky. Toto je dobrá aproximace, pokud obě (a) očekávané frekvence jsou větší nebo rovny 5 pro 80% nebo více kategorií ab) všechny očekávané frekvence jsou větší než 1. Porušení tohoto předpokladu vede k velkému snížení Napájení. Navrhovaná řešení tohoto porušení jsou: smazat proměnnou, kombinovat úrovně jedné proměnné (např. Dát dohromady muže a ženy) nebo shromáždit více dat.
3. Logaritmus očekávané hodnoty proměnné odezvy je lineární kombinací vysvětlujících proměnných. Tento předpoklad je natolik zásadní, že se o něm zmiňuje jen zřídka, ale stejně jako většina předpokladů linearity je zřídka přesný a často jednoduše vytvořený, aby se získal přitažlivý model.
Kromě toho by data měla být vždy kategorická. Kontinuální data lze nejprve převést na kategorická data se ztrátou informací. S kontinuálními i kategorickými daty by bylo nejlepší použít logistická regrese. (Jakákoli data, která jsou analyzována log-lineární analýzou, lze také analyzovat pomocí logistické regrese. Zvolená technika závisí na výzkumných otázkách.)
Proměnné
V log-lineární analýze není jasný rozdíl mezi tím, jaké proměnné jsou nezávislý nebo závislý proměnné. S proměnnými se zachází stejně. Teoretické pozadí proměnných však často povede k tomu, aby byly proměnné interpretovány jako nezávislé nebo závislé proměnné.[1]
Modely
Cílem logaritmicko-lineární analýzy je určit, které součásti modelu je nutné uchovat, aby bylo možné co nejlépe zohlednit data. Počet součástí modelu je hlavní efekty a interakce v modelu. Pokud například zkoumáme vztah mezi třemi proměnnými - proměnnou A, proměnnou B a proměnnou C -, v nasyceném modelu je sedm komponent modelu. Tři hlavní efekty (A, B, C), tři obousměrné interakce (AB, AC, BC) a jedna třícestná interakce (ABC) dávají sedm složek modelu.
Log-lineární modely lze považovat za kontinuum, přičemž dva extrémy jsou nejjednodušší model a nasycený model. Nejjednodušší model je model, kde jsou všechny očekávané frekvence stejné. To platí, když proměnné nesouvisejí. Nasycený model je model, který zahrnuje všechny součásti modelu. Tento model vždy nejlépe vysvětlí data, ale je nejméně šetrný, protože vše je zahrnuto. V tomto modelu se pozorované frekvence rovnají očekávaným frekvencím, tedy v poměru pravděpodobnosti chí-kvadrát statistika, poměr a . To má za následek, že poměr pravděpodobnosti chí-kvadrát statistika je rovna 0, což je nejlepší přizpůsobení modelu.[2] Dalšími možnými modely jsou model podmíněné rovnocennosti a model vzájemné závislosti.[1]
Každý log-lineární model lze reprezentovat jako log-lineární rovnici. Například se třemi proměnnými (A, B, C) nasycený model má následující log-lineární rovnici:[1]
kde
- očekávaná frekvence v buňceijk;
- relativní váha každé proměnné.
Hierarchický model
Modely lineární analýzy protokolu mohou být hierarchické nebo nehierarchické. Hierarchické modely jsou nejběžnější. Tyto modely obsahují všechny interakce nižšího řádu a hlavní účinky interakce, která má být zkoumána.[1]
Grafický model
Log-lineární model je grafický, pokud model vždy obsahuje všechny dvoufaktorové výrazy generované interakcí vyššího řádu, model také obsahuje interakci vyššího řádu.[4]Přímým důsledkem jsou grafické modely hierarchické. Navíc, když je zcela určen svými dvoufaktorovými členy, může být grafický model reprezentován neorientovaným grafem, kde vrcholy představují proměnné a hrany představují dvoufaktorové členy obsažené v modelu.
Rozložitelný model
Log-lineární model je rozložitelný, pokud je grafický a je-li odpovídající graf akordický.
Přizpůsobení modelu
Model se hodí dobře, když zbytky (tj. pozorované-očekávané) jsou blízké 0, to znamená, že čím blíže jsou pozorované frekvence očekávaným frekvencím, tím lépe se model hodí. Pokud statistika poměru pravděpodobnosti chí-kvadrát není významná, pak model dobře zapadá (tj. Vypočtené očekávané frekvence jsou blízké pozorovaným frekvencím). Pokud je statistika poměru pravděpodobnosti chí-kvadrát významná, pak model nesedí dobře (tj. Vypočtené očekávané frekvence nejsou blízké pozorovaným frekvencím).
Zpětná eliminace se používá k určení, které z komponent modelu je nutné uchovat, aby bylo možné co nejlépe zohlednit data. Log-lineární analýza začíná nasyceným modelem a interakce nejvyššího řádu jsou odstraněny, dokud model přestane přesně odpovídat datům. Konkrétně v každé fázi, po odstranění nejvyšší uspořádané interakce, se vypočítá statistika chi-kvadrát poměru pravděpodobnosti, aby se změřilo, jak dobře model zapadá do dat. Nejvýše uspořádané interakce již nebudou odstraněny, když se statistika chi-square poměru pravděpodobnosti stane významnou.[2]
Porovnávání modelů
Když jsou dva modely vnořené, modely lze také porovnat pomocí testu rozdílu chí-kvadrát. Test rozdílu chí-kvadrát se vypočítá odečtením statistiky pravděpodobnosti chi-kvadrát statistik pro dva srovnávané modely. Tato hodnota se poté porovná s kritickou hodnotou chí-kvadrátu při jejich rozdílu ve stupních volnosti. Pokud je rozdíl chí-kvadrát menší než kritická hodnota chi-kvadrátu, nový model se hodí k datům výrazně lépe a je preferovaným modelem. Jinak, pokud je rozdíl chí-kvadrát větší než kritická hodnota, upřednostňuje se méně šetrný model.[1]
Následné testy
Jakmile je určen model nejlepší shody, je zkoumána interakce nejvyššího řádu prováděním analýz chí-kvadrát na různých úrovních jedné z proměnných. Chcete-li provádět analýzy chí-kvadrát, je třeba model rozdělit na 2 × 2 nebo 2 × 1 pohotovostní tabulka.[2]
Například pokud jeden zkoumá vztah mezi čtyřmi proměnnými a model nejlepšího řešení obsahuje jednu z třícestných interakcí, jeden by zkoumal její jednoduché obousměrné interakce na různých úrovních třetí proměnné.
Velikost efektů
Chcete-li porovnat velikosti efektů interakcí mezi proměnnými, poměry šancí Jsou používány. Poměry kurzů jsou preferovány před statistikami chí-kvadrát ze dvou hlavních důvodů:[1]
1. Kurzové poměry jsou nezávislé na velikosti vzorku;
2. Poměry kurzů nejsou ovlivněny nerovnoměrným marginálním rozdělením.
Software
Pro datové sady s několika proměnnými - obecné log-lineární modely
Pro datové sady se stovkami proměnných - rozložitelné modely
Viz také
Reference
- ^ A b C d E F G Howell, D. C. (2009). Statistické metody pro psychologii (7. vydání). Belmot, CA: Cengage Learning. str. 630–655.
- ^ A b C d E Field, A. (2005). Objevování statistik pomocí SPSS (2. vydání). Thousand Oaks, CA: Sage publikace. str.695 –718.
- ^ Agresti, Alan (2007). Úvod do kategorické analýzy dat (2. vydání). Hoboken, NJ: Wiley Inter-Science. str. 212. doi:10.1002/0470114754. ISBN 978-0-471-22618-5.
- ^ Christensen, R. (1997). Log-lineární modely a logistická regrese (2. vydání). Springer.
- ^ Petitjean, F .; Webb, G.I .; Nicholson, A.E. (2013). Škálování logaritmicko-lineární analýzy na vysoce dimenzionální data (PDF). Mezinárodní konference o dolování dat. Dallas, TX, USA: IEEE. str. 597–606.
Další čtení
- Log-lineární modely
- Simkiss, D .; Ebrahim, G. J .; Waterston, A. J. R. (Eds.) „Kapitola 14: Analýza kategorických údajů: Log-lineární analýza“. Journal of Tropical Pediatrics, oblast pouze online, „Výzkumné metody II: Vícerozměrná analýza“ (str. 144–153). Citováno květen 2012 z http://www.oxfordjournals.org/tropej/online/ma_chap14.pdf
- Pugh, M. D. (1983). „Přispěvatelské chyby a přesvědčení za znásilnění: Log-lineární modely pro obviňování oběti“. Sociální psychologie čtvrtletně, 46, 233–242. JSTOR 3033794
- Tabachnick, B. G. a Fidell, L. S. (2007). Používání statistik s více proměnnými (5. vydání). New York, NY: Allyn a Bacon.[stránka potřebná ]