Postupné mazání - Listwise deletion

v statistika, listové mazání je metoda manipulace chybějící data. V této metodě je celý záznam vyloučen z analýzy, pokud chybí jednotlivá hodnota.[1]:6

Příklad

Zvažte například následující dotazník, na který odpovědělo 10 subjektů:

PředmětStáříRodPříjem
129M$40,000
245M$36,000
381M--chybějící--
422--chybějící--$16,000
541M$98,000
633F$60,000
722F$24,000
8--chybějící--F$81,000
933F$55,000
1045F$80,000

Vědec doufá Modelka příjem (závislá proměnná ) na základě věku a pohlaví (nezávislé proměnné). Pomocí listového odstranění by výzkumník odstranil subjekty 3, 4 a 8 z vzorek před provedením jakékoli další analýzy.

Problémy s postupným mazáním

Listové mazání ovlivňuje statistická síla provedených zkoušek.[2][3] Statistická síla částečně závisí na velké velikosti vzorku. Vzhledem k tomu, že odstranění po částech vylučuje data s chybějícími hodnotami, snižuje vzorek, který je statisticky analyzován.

Listwise delete is also problematic when the reason for missing data nemusí být náhodné (tj. otázky v dotazníky s cílem získat citlivé informace.[3] Díky této metodě bude většina údajů subjektů z analýzy vyloučena, takže zaujatost ve zjištěních údajů. Dotazník může například zahrnovat otázky týkající se historie užívání drog respondenty, aktuálního výdělku nebo sexuálního přesvědčování. Mnoho subjektů ve vzorku nemusí odpovědět kvůli dotěrné povaze otázek, ale může odpovědět na všechny ostatní položky. Postupné smazání tyto respondenty z analýzy vyloučí. To může vytvořit zaujatost, protože účastníci, kteří tyto informace prozradí, mohou mít jiné vlastnosti než účastníci, kteří tak neučiní. Vícenásobná imputace je alternativní technika pro řešení chybějících dat, která se pokouší toto zkreslení eliminovat.

Ve srovnání s jinými metodami

Zatímco odstranění po řádcích má své problémy, je lepší než mnoho jiných metod pro zpracování chybějících dat.[1]:7 V některých případech to může být dokonce nejméně problematická metoda.[1]:6 Následující tabulka poskytuje některá srovnání listových smazání s jinými metodami:

MetodaSrovnání
Párové mazáníNejednoznačná definice velikosti vzorku způsobí zkreslení v odhadu standardní chyby a testovací statistiky.[1]:9
Fiktivní proměnná nastaveníVytváří zkreslené odhady koeficientů.[4]

Reference

  1. ^ A b C d Allison, P. D. (2001). Chybějící data. Sage University Papers Series o kvantitativních aplikacích ve společenských vědách. 07-136. Thousand Oaks, CA: Mudrc.
  2. ^ Roth, P.L. (1994). „Chybějící údaje: Koncepční přehled pro aplikované psychology“. Personální psychologie. 47 (3): 537–559. doi:10.1111 / j.1744-6570.1994.tb01736.x.
  3. ^ A b Olinsky, A .; Chen, S .; Harlow, L. (2003). "Srovnávací účinnost imputačních metod pro chybějící data při modelování strukturálních rovnic". Evropský žurnál operačního výzkumu. 151 (1): 53–79. doi:10.1016 / S0377-2217 (02) 00578-7.
  4. ^ Jones, M. P. (1996). "Indikátorové a stratifikační metody pro chybějící vysvětlující proměnné ve vícenásobné lineární regrese". J. Amer. Statist. Doc. 91 (433): 222–230. doi:10.1080/01621459.1996.10476680. Jak uvádí Allison (2001), str. 10.