Pracovní – Hotellingový postup - Working–Hotelling procedure

v statistika, zejména regresní analýza, Pracovní – Hotellingový postup, pojmenoval podle Holbrook pracuje a Harold Hotelling, je metoda simultánního odhadu v lineární regrese modely. Jeden z prvních vývojů v roce 2006 simultánní odvození, vymysleli jej Working and Hotelling pro jednoduchá lineární regrese model v roce 1929.[1] Poskytuje oblast důvěry pro více středních odpovědí, to znamená, že dává horní a dolní hranici více než jedné hodnoty a závislá proměnná na několika úrovních nezávislé proměnné jistě úroveň spolehlivosti. Výsledný pásma spolehlivosti jsou známé jako Working – Hotelling – Scheffé pásma spolehlivosti.

Stejně jako blízcí příbuzní Scheffého metoda v analýza rozptylu, který považuje za možné vše kontrasty, postup Working-Hotelling zohledňuje všechny možné hodnoty nezávislých proměnných; tj. v konkrétním regresním modelu je pravděpodobnost, že všechny intervaly spolehlivosti Working – Hotelling pokrývají skutečnou hodnotu střední odezvy, je koeficient spolehlivosti. Když je tedy uvažována pouze malá podmnožina možných hodnot nezávislé proměnné, je konzervativnější a poskytuje širší intervaly než konkurenti jako Bonferroniho korekce na stejné úrovni důvěry. Při zvažování více hodnot překonává Bonferroniho korekci.

Prohlášení

Jednoduchá lineární regrese

Zvažte a jednoduchá lineární regrese Modelka , kde je proměnná odezvy a vysvětlující proměnnou a nech a být nejmenší čtverce odhady a resp. Pak odhad nejmenších čtverců střední odezvy na úrovni je . Pak to může být zobrazeno, za předpokladu, že chyby nezávisle a shodně následují normální distribuce, že interval spolehlivosti střední odezvy na určité úrovni je následující:

kde je střední čtvercová chyba a označuje svršek percentil z Studentova t-distribuce s stupně svobody.

Jak se však odhaduje několik průměrných odpovědí, úroveň spolehlivosti rychle klesá. Opravit koeficient spolehlivosti na , přístup Working – Hotelling využívá statistiku F:[2][3]

kde a označuje svršek percentil z F-distribuce s stupně svobody. Úroveň spolehlivosti je přes Všechno hodnoty , tj. .

Vícenásobná lineární regrese

Pásma spolehlivosti Working – Hotelling lze snadno zobecnit na vícenásobnou lineární regrese. Zvažte obecný lineární model, jak je definován v lineární regrese článek, to znamená,

kde

Opět lze ukázat, že odhad nejmenších čtverců střední odezvy je , kde sestává z odhadů nejmenších čtverců položek v , tj. . Stejně tak lze prokázat, že a interval spolehlivosti pro jediný průměrný odhad odpovědi je následující:[4]

kde je pozorovaná hodnota střední kvadratické chyby .

Přístup Working-Hotelling k více odhadům je podobný přístupu jednoduché lineární regrese, pouze se změnou stupňů volnosti:[3]

kde .

Grafické znázornění

V jednoduchém případě lineární regrese Working – Hotelling – Scheffé pásma spolehlivosti, nakreslené spojením horní a dolní meze střední odezvy na každé úrovni, má tvar hyperboly. Při kreslení jsou někdy aproximovány pásmy spolehlivosti Graybill – Bowden, které jsou lineární, a proto je snazší je grafovat:[2]

kde označuje svršek percentil Studentizované maximální distribuce modulu se dvěma prostředky a stupně svobody.

Jednoduchý lineární regresní model s pásmem spolehlivosti Working – Hotelling.

Numerický příklad

Stejná data v obyčejné nejmenší čtverce jsou použity v tomto příkladu:

Výška (m)1.471.501.521.551.571.601.631.651.681.701.731.751.781.801.83
váha (kg)52.2153.1254.4855.8457.2058.5759.9361.2963.1164.4766.2868.1069.9272.1974.46

K těmto datům se hodí jednoduchý lineární regresní model. Hodnoty a bylo zjištěno -39,06, respektive 61,27. Cílem je odhadnout průměrnou hmotnost žen vzhledem k jejich výškám na úrovni 95% spolehlivosti. Hodnota bylo zjištěno, že je . Bylo také zjištěno, že , , a . K předpovědi průměrné hmotnosti všech žen v určité výšce byla odvozena následující skupina Working – Hotelling – Scheffé:

což má za následek graf vlevo.

Srovnání s jinými metodami

Pásma Bonferroni pro stejný lineární regresní model na základě odhadu proměnné odezvy vzhledem k pozorovaným hodnotám X. Pásma spolehlivosti jsou znatelně přísnější.

Přístup Working-Hotelling může poskytnout přísnější nebo volnější limity spolehlivosti ve srovnání s Bonferroniho korekce. Obecně platí, že pro malé skupiny výroků mohou být hranice Bonferroni přísnější, ale když se počet odhadovaných hodnot zvýší, postup Working-Hotelling přinese užší limity. Je to proto, že úroveň spolehlivosti mezí Working – Hotelling – Scheffé je přesně když Všechno hodnoty nezávislých proměnných, tj. , jsou brány v úvahu. Alternativně z algebraické perspektivy kritická hodnota zůstává konstantní, jelikož počet odhadů přírůstků, zatímco odpovídající hodnoty v Bonferonniho odhadech, , se bude čím dál více lišit odhadů se zvyšuje. Proto je metoda Working-Hotelling vhodnější pro srovnání ve velkém měřítku, zatímco Bonferroni je preferován, pokud má být odhadnuto pouze několik průměrných odpovědí. V praxi se obvykle používají nejprve obě metody a zvolí se užší interval.[4]

Další alternativou k pásmu Working – Hotelling – Scheffé je pásmo Gavarian, které se používá, když je zapotřebí pásmo spolehlivosti, které udržuje stejnou šířku na všech úrovních.[5]

Procedura Working – Hotelling je založena na stejných principech jako Scheffého metoda, což poskytuje intervaly spolehlivosti rodiny pro všechny možné kontrasty.[6] Jejich důkazy jsou téměř totožné.[5] Je to proto, že obě metody odhadují lineární kombinace střední odezvy na všech úrovních faktorů. Procedura Working – Hotelling se však nezabývá kontrasty, ale různými úrovněmi nezávislé proměnné, takže není třeba, aby součinitele parametrů dosahovaly až nula. Proto má ještě jeden stupeň svobody.[6]

Viz také

Poznámky pod čarou

  1. ^ Miller (1966), str. 1
  2. ^ A b Miller (2014)
  3. ^ A b Neter, Wasserman a Kutner, str. 163–165
  4. ^ A b Neter, Wasserman a Kutner, str. 244–245
  5. ^ A b Miller (1966), str. 123–127
  6. ^ A b Westfall, Tobias a Wolfinger, str. 277–280

Bibliografie

  • Graybill, Franklin A .; Bowden, David C. (06.06.1967). "Pásma spolehlivosti lineárního segmentu pro jednoduché lineární modely". Journal of the American Statistical Association. 62 (318): 403–408. doi:10.1080/01621459.1967.10482917. ISSN  0162-1459.
  • Miller, Rupert G. (1966). Simultánní statistická inference. New York: Springer-Verlag. ISBN  978-1-4613-8124-2.
  • Miller, R. (2014). "Vícenásobné srovnání I". Encyklopedie statistických věd. doi:10.1002/0471667196. hdl:11693/51057. ISBN  9780471667193.
  • Neter, John; Wasserman, William; Kutner, Michael (1990). Aplikované lineární statistické modely. Tokio: Richard D Irwin, Inc. ISBN  978-0-256-08338-5.
  • Westfall, Peter H; Tobias, RD; Wolfinger, Russell Dean (2011). Vícenásobné srovnání a více testů pomocí SAS. Cary, N.C .: SAS Pub. ISBN  9781607648857.
  • Working, Holbrook; Hotelling, Harold (01.03.1929). "Aplikace teorie chyby na interpretaci trendů". Journal of the American Statistical Association. 24 (165A): 73–85. doi:10.1080/01621459.1929.10506274. ISSN  0162-1459.