Postupné mazání - Listwise deletion
v statistika, listové mazání je metoda manipulace chybějící data. V této metodě je celý záznam vyloučen z analýzy, pokud chybí jednotlivá hodnota.[1]:6
Příklad
Zvažte například následující dotazník, na který odpovědělo 10 subjektů:
Předmět | Stáří | Rod | Příjem |
---|---|---|---|
1 | 29 | M | $40,000 |
2 | 45 | M | $36,000 |
3 | 81 | M | --chybějící-- |
4 | 22 | --chybějící-- | $16,000 |
5 | 41 | M | $98,000 |
6 | 33 | F | $60,000 |
7 | 22 | F | $24,000 |
8 | --chybějící-- | F | $81,000 |
9 | 33 | F | $55,000 |
10 | 45 | F | $80,000 |
Vědec doufá Modelka příjem (závislá proměnná ) na základě věku a pohlaví (nezávislé proměnné). Pomocí listového odstranění by výzkumník odstranil subjekty 3, 4 a 8 z vzorek před provedením jakékoli další analýzy.
Problémy s postupným mazáním
Listové mazání ovlivňuje statistická síla provedených zkoušek.[2][3] Statistická síla částečně závisí na velké velikosti vzorku. Vzhledem k tomu, že odstranění po částech vylučuje data s chybějícími hodnotami, snižuje vzorek, který je statisticky analyzován.
Listwise delete is also problematic when the reason for missing data nemusí být náhodné (tj. otázky v dotazníky s cílem získat citlivé informace.[3] Díky této metodě bude většina údajů subjektů z analýzy vyloučena, takže zaujatost ve zjištěních údajů. Dotazník může například zahrnovat otázky týkající se historie užívání drog respondenty, aktuálního výdělku nebo sexuálního přesvědčování. Mnoho subjektů ve vzorku nemusí odpovědět kvůli dotěrné povaze otázek, ale může odpovědět na všechny ostatní položky. Postupné smazání tyto respondenty z analýzy vyloučí. To může vytvořit zaujatost, protože účastníci, kteří tyto informace prozradí, mohou mít jiné vlastnosti než účastníci, kteří tak neučiní. Vícenásobná imputace je alternativní technika pro řešení chybějících dat, která se pokouší toto zkreslení eliminovat.
Ve srovnání s jinými metodami
Zatímco odstranění po řádcích má své problémy, je lepší než mnoho jiných metod pro zpracování chybějících dat.[1]:7 V některých případech to může být dokonce nejméně problematická metoda.[1]:6 Následující tabulka poskytuje některá srovnání listových smazání s jinými metodami:
Metoda | Srovnání |
---|---|
Párové mazání | Nejednoznačná definice velikosti vzorku způsobí zkreslení v odhadu standardní chyby a testovací statistiky.[1]:9 |
Fiktivní proměnná nastavení | Vytváří zkreslené odhady koeficientů.[4] |
Reference
- ^ A b C d Allison, P. D. (2001). Chybějící data. Sage University Papers Series o kvantitativních aplikacích ve společenských vědách. 07-136. Thousand Oaks, CA: Mudrc.
- ^ Roth, P.L. (1994). „Chybějící údaje: Koncepční přehled pro aplikované psychology“. Personální psychologie. 47 (3): 537–559. doi:10.1111 / j.1744-6570.1994.tb01736.x.
- ^ A b Olinsky, A .; Chen, S .; Harlow, L. (2003). "Srovnávací účinnost imputačních metod pro chybějící data při modelování strukturálních rovnic". Evropský žurnál operačního výzkumu. 151 (1): 53–79. doi:10.1016 / S0377-2217 (02) 00578-7.
- ^ Jones, M. P. (1996). "Indikátorové a stratifikační metody pro chybějící vysvětlující proměnné ve vícenásobné lineární regrese". J. Amer. Statist. Doc. 91 (433): 222–230. doi:10.1080/01621459.1996.10476680. Jak uvádí Allison (2001), str. 10.