Postupná regrese - Stepwise regression

v statistika, postupná regrese je způsob montáže regresní modely ve kterém se výběr prediktivních proměnných provádí automatickým postupem.[1][2][3][4] V každém kroku se uvažuje o přidání nebo odečtení proměnné z množiny vysvětlující proměnné na základě nějakého předem stanoveného kritéria. Obvykle to má formu posloupnosti F-testy nebo t-testy, ale jsou možné i jiné techniky, jako např upraveno R2, Informační kritérium Akaike, Bayesovské informační kritérium, Sléz Cstr, LIS nebo míra falešných objevů.

Častá praxe přizpůsobení konečného vybraného modelu následovaná vykazováním odhadů a intervalů spolehlivosti bez jejich úpravy tak, aby zohledňovaly proces budování modelu, vedla k výzvám, aby přestali používat postupné budování modelu.[5][6] nebo alespoň zajistit, aby se nejistota modelu správně odrážela.[7][8]

V tomto příkladu z inženýrství jsou nutnost a dostatečnost obvykle určeny F-testy. Pro další zvážení při plánování experiment, počítačová simulace nebo vědecké průzkum sbírat data pro tohle Modelka, je třeba mít na paměti počet parametry, P, do odhad a upravte velikost vzorku podle toho. Vidlička proměnné, P = 1(Start) + K.(Fáze I) + (K.2 − K.)/2(Fáze II) + 3K.(Fáze III) = 0.5K.2 + 3.5K. + 1. Pro K. <17 let účinný návrh experimentů pro tento typ modelu existuje, a Design Box – Behnken,[9] rozšířeno o kladné a záporné osové body délky min (2, (int (1,5 +K./4))1/2), plus bod (y) na počátku. Je jich více účinný designy, které vyžadují méně běhů, dokonce i pro K. > 16.

Hlavní přístupy

Hlavní přístupy jsou:

  • Předat výběr, který zahrnuje počínaje bez proměnných v modelu, testování přidání každé proměnné pomocí zvoleného kritéria přizpůsobení modelu, přidání proměnné (pokud existuje), jejíž zahrnutí poskytuje statisticky nejvýznamnější zlepšení přizpůsobení, a opakování tohoto procesu, dokud se nezlepší žádná model ve statisticky významné míře.
  • Zpětná eliminace, který zahrnuje počínaje všemi kandidátskými proměnnými, testování odstranění každé proměnné pomocí vybraného kritéria přizpůsobení modelu, odstranění proměnné (pokud existuje), jejíž ztráta způsobí statisticky nejvýznamnější zhoršení přizpůsobení modelu, a opakování tohoto procesu, dokud nebudou žádné další proměnné lze smazat bez statisticky nevýznamné ztráty fit.
  • Obousměrná eliminace, kombinace výše uvedeného, ​​testování v každém kroku, zda mají být proměnné zahrnuty nebo vyloučeny.

Kritérium výběru

Široce používaný algoritmus poprvé navrhl Efroymson (1960).[10] Toto je automatický postup pro statistiku výběr modelu v případech, kdy existuje velké množství potenciálních vysvětlujících proměnných a žádná základní teorie, na které by bylo možné založit výběr modelu. Postup se používá především v regresní analýza, ačkoli základní přístup je použitelný v mnoha formách výběru modelu. Toto je variace na dopředný výběr. V každé fázi procesu, po přidání nové proměnné, se provede test, který zkontroluje, zda lze některé proměnné odstranit bez znatelného zvýšení zbytkový součet čtverců (RSS). Postup je ukončen, když je míra (lokálně) maximalizována nebo když dostupné zlepšení klesne pod určitou kritickou hodnotu.

Jedním z hlavních problémů postupné regrese je, že prohledává velký prostor možných modelů. Proto je náchylný k nadměrné vybavení data. Jinými slovy, postupná regrese se do vzorku často vejde mnohem lépe než na nová data mimo vzorek. Byly zaznamenány extrémní případy, kdy modely dosáhly statistické významnosti na náhodných číslech.[11] Tento problém lze zmírnit, pokud je kritérium pro přidání (nebo odstranění) proměnné dostatečně tuhé. Klíčová linie v písku je v tom, co lze považovat za Bonferroni bod: jmenovitě, jak významná by měla být nejlepší falešná proměnná na základě samotné náhody. Na t-statistické měřítko, k tomu dochází přibližně , kde str je počet prediktorů. To však bohužel znamená, že mnoho proměnných, které skutečně přenášejí signál, nebude zahrnuto. Ukázalo se, že tento plot je správným kompromisem mezi nadměrným a chybějícím signálem. Podíváme-li se na riziko různých mezních hodnot, pak použití této vazby bude v rámci 2logustr faktor nejlepšího možného rizika. Jakékoli jiné omezení bude mít větší podobu riziková inflace.[12][13]

Přesnost modelu

Způsob, jak otestovat chyby v modelech vytvořených postupnou regresí, je nespoléhat se na model F-statistické, významové nebo vícenásobné R, ale místo toho posoudit model na základě sady dat, která nebyla použita k vytvoření modelu.[14] To se často děje vytvořením modelu na základě vzorku dostupné datové sady (např. 70%) - „tréninková sada ”- a zbytek datové sady (např. 30%) použijte jako a ověřovací sada k posouzení přesnosti modelu. Přesnost se pak často měří jako skutečná standardní chyba (SE), MAPE (Střední absolutní procentuální chyba ), nebo střední chyba mezi předpokládanou hodnotou a skutečnou hodnotou ve zadrženém vzorku.[15] Tato metoda je obzvláště cenná, když jsou data shromažďována v různých prostředích (např. V různých časech, sociální vs. solitérní situace) nebo když se modely považují za zobecnitelné.

Kritika

Postupné regrese se používají v dolování dat, ale jsou kontroverzní. Bylo vzneseno několik bodů kritiky.

  • Samotné testy jsou zkreslené, protože jsou založeny na stejných datech.[16][17] Wilkinson a Dallal (1981)[18] vypočtené procentní body koeficientu vícenásobné korelace pomocí simulace a ukázaly, že konečná regrese získaná dopřednou selekcí, kterou F-procedura uvádí jako významnou na 0,1%, byla ve skutečnosti významná pouze na 5%.
  • Při odhadu stupně svobody, počet kandidátských nezávislých proměnných z nejlépe zvoleného přizpůsobení může být menší než celkový počet proměnných konečného modelu, což způsobí, že přizpůsobení bude vypadat lépe než při úpravě r2 hodnota pro počet stupňů volnosti. Je důležité vzít v úvahu, kolik stupňů volnosti bylo použito v celém modelu, nejen spočítat počet nezávislých proměnných ve výsledném přizpůsobení.[19]
  • Vytvořené modely mohou být přehnaným zjednodušením skutečných modelů dat.[20]

Takové kritiky, založené na omezeních vztahu mezi modelem a postupem a datovým souborem použitým k jeho přizpůsobení, jsou obvykle řešeny ověřování model na nezávislém souboru dat, jako v PRESS postup.

Kritici považují postup za paradigmatický příklad bagrování dat, intenzivní výpočty často nedostatečně nahrazují odborné znalosti v dané oblasti. Kromě toho se výsledky postupné regrese často používají nesprávně, aniž by se upravovaly pro výskyt výběru modelu. Zejména praxe přizpůsobení konečného vybraného modelu, jako by nedošlo k výběru modelu, a hlášení odhadů a intervalů spolehlivosti, jako by pro ně platila teorie nejmenších čtverců, byla popsána jako skandál.[7] Rozšířené nesprávné použití a dostupnost alternativ, jako je souborové učení, ponechání všech proměnných v modelu nebo použití odborného úsudku k identifikaci příslušných proměnných vedly k výzvám k úplnému vyloučení postupného výběru modelu.[5]

Viz také

Reference

  1. ^ Efroymson, M. A. (1960) „Multiple regression analysis,“ Mathematical Methods for Digital Computers, Ralston A. a Wilf, H. S., (eds.), Wiley, New York.
  2. ^ Hocking, R. R. (1976) „Analýza a výběr proměnných v lineární regresi“ Biometrie, 32.
  3. ^ Draper, N. a Smith, H. (1981) Aplikovaná regresní analýza, 2. vydání, New York: John Wiley & Sons, Inc.
  4. ^ Institut SAS Inc. (1989) Uživatelská příručka SAS / STAT, verze 6, čtvrté vydání, svazek 2, Cary, NC: Institut SAS Inc.
  5. ^ A b Flom, P. L. a Cassell, D. L. (2007) „Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use,“ NESUG 2007.
  6. ^ Harrell, F. E. (2001) „Strategie regresního modelování: S aplikacemi na lineární modely, logistická regrese a analýza přežití,“ Springer-Verlag, New York.
  7. ^ A b Chatfield, C. (1995) „Nejistota modelu, dolování dat a statistická inference,“ J. R. Statist. Soc. A 158, část 3, s. 419–466.
  8. ^ Efron, B. a Tibshirani, R. J. (1998) „An Introduction to the Bootstrap,“ Chapman & Hall / CRC
  9. ^ Box – Behnken designy od a příručka technické statistiky na NIST
  10. ^ Efroymson, MA (1960) „Vícenásobná regresní analýza.“ In Ralston, A. a Wilf, HS, redaktoři, Matematické metody pro digitální počítače. Wiley.
  11. ^ Knecht, WR. (2005). Ochota pilota vzlétnout do okrajového počasí, část II: Předcházející overfitting s postupnou logistickou regresí vpřed. (Technická zpráva DOT / FAA / AM-O5 / 15 ). Federální letecká správa
  12. ^ Foster, Dean P. a George, Edward I. (1994). Kritérium rizikové inflace pro vícenásobnou regresi. Annals of Statistics, 22(4). 1947–1975. doi:10.1214 / aos / 1176325766
  13. ^ Donoho, David L. a Johnstone, Jain M. (1994). Ideální prostorová adaptace zmenšením vlnky. Biometrika, 81(3):425–455. doi:10.1093 / biomet / 81.3.425
  14. ^ Mark, Jonathan a Goldberg, Michael A. (2001). Vícenásobná regresní analýza a hromadné hodnocení: Přehled problémů. Hodnotící deník, Leden, 89–109.
  15. ^ Mayers, J.H., & Forgy, E.W. (1963). Vývoj numerických systémů hodnocení úvěrů. Journal of the American Statistical Association, 58(303; září), 799–806.
  16. ^ Rencher, A. C., & Pun, F. C. (1980). Inflace R² v Best Regression Subset. Technometrics, 22, 49–54.
  17. ^ Copas, J. B. (1983). Regrese, predikce a smršťování. J. Roy. Statist. Soc. Řada B, 45, 311–354.
  18. ^ Wilkinson, L. a Dallal, G.E. (1981). Testy významnosti v regresi dopředného výběru s F-to enter zastavovacím pravidlem. Technometrics, 23, 377–380.
  19. ^ Hurvich, C. M. a C. L. Tsai. 1990. Dopad výběru modelu na inference v lineární regrese. Americký statistik 44: 214–217.
  20. ^ Roecker, Ellen B. (1991). Predikční chyba a její odhad pro podmnožinu — vybrané modely. Technometrics, 33, 459–468.