Segmentovaná regrese - Segmented regression
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
Segmentovaná regrese, také známý jako po částech regrese nebo regrese zlomené hůlky, je metoda v regresní analýza ve kterém nezávislé proměnné je rozdělena na intervaly a každému segmentu je přizpůsoben samostatný úsečkový segment. Segmentovanou regresní analýzu lze také provést na vícerozměrných datech rozdělením různých nezávislých proměnných. Segmentovaná regrese je užitečná, když nezávislé proměnné seskupené do různých skupin vykazují různé vztahy mezi proměnnými v těchto oblastech. Hranice mezi segmenty jsou hraniční body.
Segmentovaná lineární regrese je segmentovaná regrese, přičemž vztahy v intervalech jsou získány pomocí lineární regrese.
Segmentovaná lineární regrese, dva segmenty



Segmentovaná lineární regrese se dvěma segmenty oddělenými a bod zlomu může být užitečné kvantifikovat náhlou změnu funkce odezvy (Yr) měnícího se vlivného faktoru (X). Bod zlomu lze interpretovat jako a kritický, bezpečnýnebo práh hodnota, nad nebo pod kterou (ne) nastanou požadované účinky. Bod zlomu může být důležitý při rozhodování [1]
Obrázky ilustrují některé výsledky a typy regrese, které lze získat.
Segmentová regresní analýza je založena na přítomnosti množiny ( y, x ) údaje, ve kterých y je závislá proměnná a X the nezávislé proměnné.
The nejmenší čtverce metoda aplikovaná samostatně na každý segment, pomocí které jsou vytvořeny dvě regresní čáry tak, aby co nejpřesněji odpovídaly datové sadě při minimalizaci součet čtverců rozdílů (SSD) mezi pozorovanými (y) a vypočítané (Yr) hodnoty závislé proměnné mají za následek následující dvě rovnice:
- Yr = A1.X + K.1 pro X
- Yr = A2.X + K.2 pro X > BP (bod zlomu)
kde:
- Yr je očekávaná (předpokládaná) hodnota y pro určitou hodnotu X;
- A1 a A.2 jsou regresní koeficienty (označující sklon úseček);
- K.1 a K.2 jsou regresní konstanty (s vyznačením zachycení na y-osa).
Data mohou ukázat mnoho typů nebo trendů,[2] viz obrázky.
Metoda také poskytuje dva korelační koeficienty (R):
- pro X
a
- pro X > BP (bod zlomu)
kde:
- je minimalizovaný SSD na segment
a
- Ya1 a Ya2 jsou průměrné hodnoty y v příslušných segmentech.
Při stanovení nejvhodnějšího trendu statistické testy musí být provedeno, aby byl zajištěn spolehlivý (významný) tento trend.
Pokud nelze detekovat žádný významný bod zlomu, je třeba se vrátit zpět na regresi bez bodu zlomu.
Příklad

Pro modrou postavu vpravo, která udává vztah mezi výnosem hořčice (Yr = Ym, t / ha) a slanost půdy (X = Ss, vyjádřeno jako elektrická vodivost půdního roztoku EC v dS / m) bylo zjištěno, že:[3]
BP = 4,93, A1 = 0, K.1 = 1,74, A2 = -0,129, K.2 = 2,38, R12 = 0,0035 (bezvýznamný), R22 = 0,395 (významné) a:
- Ym = 1,74 t / ha pro Ss <4,93 (hraniční hodnota)
- Ym = -0,129 Ss + 2,38 t / ha pro Ss> 4,93 (bod zlomu)
což naznačuje, že zasolení půdy <4,93 dS / m jsou bezpečné a zasolení půdy> 4,93 dS / m snižují výnos @ 0,129 t / ha na jednotku zvýšení zasolení půdy.
Obrázek také ukazuje intervaly spolehlivosti a nejistotu, jak jsou rozpracovány níže.
Zkušební postupy


Následující statistické testy slouží k určení typu trendu:
- význam bodu zlomu (BP) vyjádřením BP jako funkce regresní koeficienty A1 a A.2 a znamená Y1 a Y2 z y-data a prostředky X1 a X2 z X data (vlevo a vpravo od BP), podle zákonů šíření chyb v sčítáních a násobení pro výpočet standardní chyba (SE) BP, a přihlašování Studentův t-test
- význam A.1 a A.2 použití Studentovy t-distribuce a standardní chyba JV od A.1 a A.2
- význam rozdílu A1 a A.2 použití Studentovy t-distribuce pomocí SE jejich rozdílu.
- význam rozdílu Y1 a Y2 použití Studentovy t-distribuce pomocí SE jejich rozdílu.
- Formálnější statistický přístup k testování existence bodu zlomu je prostřednictvím testu pseudo skóre, který nevyžaduje odhad segmentované čáry[4].
Kromě toho se používá korelační koeficient všech údajů (Ra), koeficient stanovení nebo koeficient vysvětlení, intervaly spolehlivosti regresních funkcí a ANOVA analýza.[5]
Koeficient stanovení pro všechna data (Cd), který má být maximalizován za podmínek stanovených zkouškami významnosti, se zjistí z:
kde Yr je očekávaná (předpokládaná) hodnota y podle dřívějších regresních rovnic je Ya průměr všech y hodnoty.
Koeficient Cd se pohybuje mezi 0 (žádné vysvětlení) a 1 (úplné vysvětlení, perfektní shoda).
V čisté, nesegmentované lineární regresi jsou hodnoty Cd a Ra2 jsou rovny. V segmentované regrese musí být Cd výrazně větší než Ra2 k odůvodnění segmentace.
The optimální hodnotu bodu zlomu lze najít tak, že koeficient Cd je maximum.
Rozsah bez efektů

Segmentovaná regrese se často používá k detekci, v jakém rozsahu nemá vysvětlující proměnná (X) žádný vliv na závislou proměnnou (Y), zatímco mimo dosah existuje jasná odpověď, ať už pozitivní nebo negativní. nalezen v počáteční části domény X nebo naopak v její poslední části. Pro analýzu "bez efektu" je aplikace nejmenší čtverce metoda pro segmentovanou regresní analýzu [6] nemusí být nejvhodnější technikou, protože cílem je spíše najít nejdelší úsek, přes který lze považovat vztah YX za nulový sklon, zatímco za dosahem se sklon výrazně liší od nuly, ale znalosti o nejlepší hodnotě tohoto sklonu jsou ne materiál. Metoda k nalezení rozsahu bez efektů je progresivní částečná regrese [7] v celém rozsahu, rozšiřování rozsahu malými kroky, dokud se regresní koeficient významně neliší od nuly.
Na dalším obrázku je bod zlomu nalezen na X = 7,9, zatímco pro stejná data (viz modrý obrázek výše pro výtěžek hořčice) poskytuje metoda nejmenších čtverců bod zlomu pouze při X = 4,9. Druhá hodnota je nižší, ale přizpůsobení dat za bod zlomu je lepší. Z toho důvodu bude záležet na účelu analýzy, kterou metodu je třeba použít.
Viz také
- Chowův test
- Jednoduchá regrese
- Lineární regrese
- Obyčejné nejmenší čtverce
- Vícedílné adaptivní regresní splajny
- Místní regrese
- Návrh regresní diskontinuity
- Postupná regrese
- SegReg (software) pro segmentovanou regresi
Reference
- ^ Frekvenční a regresní analýza. Kapitola 6 v: H.P. Ritzema (ed., 1994), Zásady a aplikace odvodněníPubl. 16, s. 175-224, Mezinárodní institut pro melioraci a zlepšování půdy (ILRI), Wageningen, Nizozemsko. ISBN 90-70754-33-9 . Stažení zdarma z webové stránky [1] pod č. 20 nebo přímo jako PDF: [2]
- ^ Výzkum odvodnění v oblastech zemědělců: analýza údajů. Část projektu „Liquid Gold“ Mezinárodního institutu pro rekultivaci a zlepšování půdy (ILRI), Wageningen, Nizozemsko. Stáhnout jako PDF: [3]
- ^ R.J. Oosterbaan, D.P.Sharma, K.N.Singh a K.V.G.K. Rao, 1990, Produkce plodiny a slanost půdy: vyhodnocení polních dat z Indie pomocí segmentované lineární regrese. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to 2nd March, 1990, Cairo, Egypt, Vol. 3, Sekce V, s. 373 - 383.
- ^ Muggeo, VMR (2016). "Testování s obtěžujícím parametrem přítomným pouze v rámci alternativy: přístup založený na skóre s aplikací na segmentované modelování". Journal of Statistical Computation and Simulation. 86 (15): 3059–3067. doi:10.1080/00949655.2016.1149855.
- ^ Statistická významnost segmentované lineární regrese s bodem zlomu pomocí analýzy rozptylu a F-testů. Stáhnout z [4] pod č. 13 nebo přímo ve formátu PDF: [5]
- ^ Segmentovaná regresní analýza, Mezinárodní institut pro melioraci a zlepšování půdy (ILRI), Wageningen, Nizozemsko. Stažení zdarma z webové stránky [6]
- ^ Parciální regresní analýza, Mezinárodní institut pro melioraci a zlepšování půdy (ILRI), Wageningen, Nizozemsko. Stažení zdarma z webové stránky [7]