Binomická regrese - Binomial regression
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
v statistika, binomická regrese je regresní analýza technika, při které Odezva (často označované jako Y) má binomická distribuce: je to počet úspěchů v řadě nezávislý Bernoulliho zkoušky, kde každá studie má pravděpodobnost úspěchu .[1] V binomické regresi souvisí pravděpodobnost úspěchu vysvětlující proměnné: odpovídajícím konceptem v běžné regresi je vztahovat střední hodnotu nepozorované odpovědi k vysvětlujícím proměnným.
Binomická regrese úzce souvisí s binární regrese: pokud je odpověď a binární proměnná (dva možné výsledky), pak to lze považovat za binomické rozdělení s zkouška tím, že jeden z výsledků považuje za „úspěch“ a druhý za „neúspěch“, výsledky se počítají buď jako 1 nebo 0: úspěch se počítá jako 1 úspěch z 1 zkoušky a počítá se neúspěch jako 0 úspěchů z 1 zkoušky . Binomické regresní modely jsou v podstatě stejné jako binární výběrové modely, jeden typ diskrétní volba Modelka. Hlavní rozdíl je v teoretické motivaci.
v strojové učení, binomická regrese je považována za zvláštní případ pravděpodobnostní klasifikace, a tedy zobecnění binární klasifikace.
Příklad aplikace
V jednom publikovaném příkladu aplikace binomické regrese[2] podrobnosti byly následující. Pozorovanou proměnnou výsledku bylo, zda došlo nebo nedošlo k chybě v průmyslovém procesu. Vysvětlující proměnné byly dvě: první byl prostý dvoupřípadový faktor představující, zda byla či nebyla použita upravená verze procesu, a druhá byla běžná kvantitativní proměnná měřící čistotu materiálu dodávaného do procesu.
Diskrétní model volby
Modely diskrétní volby jsou motivovány použitím teorie užitečnosti tak, abychom zvládli různé typy korelovaných a nekorelovaných voleb, zatímco binomické regresní modely jsou obecně popsány z hlediska zobecněný lineární model, pokus o zobecnění různých typů lineární regrese modely. Výsledkem je, že modely s diskrétní volbou jsou obvykle popsány primárně s a latentní proměnná označující „užitečnost“ volby a s náhodností zavedenou prostřednictvím chybová proměnná distribuovány podle konkrétního rozdělení pravděpodobnosti. Všimněte si, že samotná latentní proměnná není dodržena, pouze skutečná volba, o které se předpokládá, že byla provedena, pokud byla čistá utilita větší než 0. Modely binární regrese však upustí od latentní i chybové proměnné a předpokládají, že volba sám o sobě je náhodná proměnná, s funkce propojení který transformuje očekávanou hodnotu vybrané proměnné na hodnotu, která je pak předpovězena lineárním prediktorem. Je možné ukázat, že tyto dva způsoby jsou ekvivalentní, alespoň v případě modelů s binární volbou: funkce odkazu odpovídá kvantilová funkce distribuce chybové proměnné a funkce inverzního odkazu na kumulativní distribuční funkce (CDF) chybové proměnné. Latentní proměnná má ekvivalent, pokud si představíme generování rovnoměrně rozloženého čísla mezi 0 a 1, od kterého odečteme střední hodnotu (ve formě lineárního prediktoru transformovaného funkcí inverzního odkazu) a invertujeme znaménko. Jeden pak má číslo, jehož pravděpodobnost, že bude větší než 0, je stejná jako pravděpodobnost úspěchu ve vybrané proměnné, a lze jej považovat za latentní proměnnou označující, zda byla zvolena 0 nebo 1.
Specifikace modelu
Výsledky se považují za binomicky distribuované.[1] Často jsou vybaveny jako zobecněný lineární model kde predikované hodnoty μ jsou pravděpodobnosti, že každá jednotlivá událost povede k úspěchu. The pravděpodobnost předpovědí je pak dáno
kde 1A je funkce indikátoru která při události nabývá hodnoty jedna A nastane a jinak nula: v této formulaci pro jakékoli dané pozorování yi, pouze jeden ze dvou výrazů uvnitř produktu přispívá podle toho, zda yi= 0 nebo 1. Funkce pravděpodobnosti je přesněji definována definováním formálních parametrů μi jako parametrizované funkce vysvětlujících proměnných: toto definuje pravděpodobnost, pokud jde o mnohem menší počet parametrů. Přizpůsobení modelu se obvykle dosahuje použitím metody maximální pravděpodobnost k určení těchto parametrů. V praxi umožňuje použití formulace jako zobecněného lineárního modelu využít určité algoritmické nápady, které jsou použitelné v celé třídě obecnějších modelů, ale které se nevztahují na všechny problémy s maximální pravděpodobností.
Modely používané v binomické regresi lze často rozšířit na multinomická data.
Existuje mnoho metod generování hodnot μ systematickými způsoby, které umožňují interpretaci modelu; jsou diskutovány níže.
Funkce propojení
Existuje požadavek, aby modelování, které spojuje pravděpodobnosti μ s vysvětlujícími proměnnými, mělo být ve formě, která vytváří pouze hodnoty v rozsahu 0 až 1. Mnoho formulářů lze do formuláře vložit
Tady η je střední proměnná představující lineární kombinaci vysvětlujících proměnných obsahující regresní parametry. FunkceG je kumulativní distribuční funkce (CDF) některých rozdělení pravděpodobnosti. Toto rozdělení pravděpodobnosti má obvykle a Podpěra, podpora od minus nekonečna do plus nekonečna, takže jakákoli konečná hodnota η je transformována funkcí G na hodnotu v rozsahu 0 až 1.
V případě logistická regrese, funkce odkazu je protokol poměru šancí nebo logistická funkce. V případě probit, odkaz je CDF souboru normální distribuce. The lineární pravděpodobnostní model není správná specifikace binomické regrese, protože předpovědi nemusí být v rozsahu od nuly do jedné; někdy se pro tento typ dat používá, když je pravděpodobnostní prostor tam, kde dochází k interpretaci, nebo když analytikovi chybí dostatečná propracovanost, aby se vešel nebo vypočítal přibližné linearizace pravděpodobností pro interpretaci.
Srovnání mezi binomickou regresí a modely binární volby
Model binární volby předpokládá a latentní proměnná Un, užitek (nebo čistá výhoda) této osoby n získává z přijetí opatření (na rozdíl od nečinnosti). Užitečnost, kterou osoba získá přijetím opatření, závisí na charakteristikách osoby, z nichž některé jsou badatelem sledovány a některé ne:
kde je sada regresní koeficienty a je sada nezávislé proměnné (také známý jako „rysy“) popisující osobu n, které mohou být buď diskrétní “fiktivní proměnné "nebo pravidelné spojité proměnné. je náhodná proměnná specifikování „šumu“ nebo „chyby“ v predikci, předpokládá se, že bude distribuována podle nějaké distribuce. Normálně, pokud je v distribuci parametr střední nebo odchylky, nemůže být identifikováno, takže parametry jsou nastaveny na vhodné hodnoty - konvence obvykle znamená 0, rozptyl 1.
Osoba přijme akci, yn = 1, pokud Un > 0. Nepozorovaný termín, εn, se předpokládá, že má logistická distribuce.
Specifikace je stručně napsána jako:
- Un = βsn + εn