Multinomiální logistická regrese - Multinomial logistic regression
![]() | tento článek potřebuje další citace pro ověření.Listopadu 2011) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
v statistika, multinomiální logistická regrese je klasifikace metoda, která zobecňuje logistická regrese na problémy s více třídami, tj. s více než dvěma možnými diskrétními výsledky.[1] To znamená, že se jedná o model, který se používá k předpovědi pravděpodobností různých možných výsledků a kategoricky distribuován závislá proměnná, vzhledem k souboru nezávislé proměnné (které mohou mít skutečnou hodnotu, binární hodnotu, kategorickou hodnotu atd.).
Multinomiální logistická regrese je známá pod různými jmény, včetně polytomous LR,[2][3] multiclass LR, softmax regrese, multinomiální logit (mlogit), maximální entropie (MaxEnt) klasifikátor a podmíněný model maximální entropie.[4]
Pozadí
Multinomiální logistická regrese se používá, když závislá proměnná dotyčný je nominální (ekvivalentně kategorický, což znamená, že spadá do jedné z množiny kategorií, které nelze žádným smysluplným způsobem objednat) a pro které existují více než dvě kategorie. Některé příklady by byly:
- Který obor si vysokoškolský student vybere vzhledem k jeho známkám, známkám lajků a nelibostí atd.?
- Jakou krevní skupinu má člověk vzhledem k výsledkům různých diagnostických testů?
- V aplikaci hands-free pro vytáčení mobilního telefonu, které jméno osoby bylo vysloveno, vzhledem k různým vlastnostem řečového signálu?
- Pro kterého kandidáta bude člověk hlasovat, vzhledem ke konkrétním demografickým charakteristikám?
- Ve které zemi bude mít firma sídlo, vzhledem k charakteristikám firmy a různých kandidátských zemí?
To jsou všichni statistická klasifikace problémy. Všichni mají společné a závislá proměnná předvídat, že pochází z jedné z omezené sady položek, které nelze smysluplně objednat, stejně jako ze sady nezávislé proměnné (známé také jako funkce, vysvětlovače atd.), které se používají k predikci závislé proměnné. Multinomiální logistická regrese je konkrétním řešením klasifikačních problémů, které k odhadu pravděpodobnosti každé konkrétní hodnoty závislé proměnné používají lineární kombinaci pozorovaných vlastností a některých parametrů specifických pro daný problém. Nejlepší hodnoty parametrů pro daný problém se obvykle určují z některých tréninkových dat (např. U lidí, u nichž jsou známy výsledky diagnostických testů i krevní skupiny, nebo některé příklady mluvených slov).
Předpoklady
Multinomiální logistický model předpokládá, že data jsou konkrétní; to znamená, že každá nezávislá proměnná má pro každý případ jednu hodnotu. Multinomický logistický model také předpokládá, že závislou proměnnou nelze v žádném případě dokonale předpovědět z nezávislých proměnných. Stejně jako u jiných typů regrese není třeba, aby existovaly nezávislé proměnné statisticky nezávislé od sebe navzájem (na rozdíl například od a naivní Bayesův klasifikátor ); nicméně, kolineárnost Předpokládá se, že je relativně nízký, protože je obtížné rozlišovat mezi dopadem několika proměnných, pokud tomu tak není.[5]
Pokud se multinomický logit používá k modelování možností, spoléhá se na předpoklad nezávislost irelevantních alternativ (IIA), což není vždy žádoucí. Tento předpoklad uvádí, že šance upřednostňovat jednu třídu před jinou nezávisí na přítomnosti nebo nepřítomnosti jiných „irelevantních“ alternativ. Například relativní pravděpodobnost, že přijedete autem nebo autobusem do práce, se nezmění, pokud je jako další možnost přidáno kolo. To umožňuje volbu K. alternativy, které mají být modelovány jako sada K.-1 nezávislé binární volby, ve kterých je jedna alternativa vybrána jako „pivot“ a druhá K.-1 ve srovnání s tím, jeden po druhém. Hypotéza IIA je základní hypotézou v teorii racionální volby; četné psychologické studie však ukazují, že jednotlivci tento předpoklad při rozhodování často porušují. Příklad problémového případu nastává, pokud jsou k dispozici auto a modrý autobus. Předpokládejme, že poměr šancí mezi těmito dvěma je 1: 1. Nyní, pokud je zavedena možnost červeného autobusu, může být osoba lhostejná mezi červeným a modrým autobusem, a proto může vykazovat poměr šancí auto: modrý autobus: červený autobus 1: 0,5: 0,5, čímž se zachová poměr 1: 1 automobil: jakýkoli autobus, přičemž se použije poměr změněný vůz: modrý autobus 1: 0,5. Zde možnost červeného autobusu nebyla ve skutečnosti irelevantní, protože červený autobus byl perfektní náhrada na modrý autobus.
Pokud se multinomický logit používá k modelování možností, může v některých situacích příliš omezit relativní preference mezi různými alternativami. Tento bod je obzvláště důležité vzít v úvahu, pokud si analýza klade za cíl předpovědět, jak by se volby změnily, kdyby měla zmizet jedna alternativa (například pokud jeden politický kandidát odstoupí ze závodu tří kandidátů). Jiné modely jako vnořený logit nebo multinomiální probit mohou být použity v případech, kdy umožňují porušení IIA.[6]
Modelka
Úvod
Existuje několik ekvivalentních způsobů, jak popsat matematický model, který je základem multinomiální logistické regrese. To může ztěžovat srovnání různých způsobů zpracování předmětu v různých textech. Článek o logistická regrese představuje řadu ekvivalentních formulací jednoduché logistické regrese a mnoho z nich má analogie v multinomálním modelu logitu.
Myšlenka všech, stejně jako v mnoha jiných statistická klasifikace technik, je konstrukce a funkce lineárního prediktoru který vytváří skóre ze sady vah, které jsou lineárně kombinované s vysvětlujícími proměnnými (vlastnostmi) daného pozorování pomocí a Tečkovaný produkt:
kde Xi je vektor vysvětlujících proměnných popisujících pozorování i, βk je vektor vah (nebo regresní koeficienty ) odpovídající výsledku ka skóre (Xi, k) je skóre spojené s přiřazením pozorování i do kategorie k. v diskrétní volba teorie, kde pozorování představují lidi a výsledky představují volby, je skóre považováno za nástroj spojené s osobou i výběr výsledku k. Předpokládaný výsledek je ten s nejvyšším skóre.
Rozdíl mezi multinomickým modelem logitu a mnoha dalšími metodami, modely, algoritmy atd. Se stejným základním nastavením ( perceptron algoritmus, podporovat vektorové stroje, lineární diskriminační analýza atd.) je postup pro stanovení (trénování) optimálních vah / koeficientů a způsobu interpretace skóre. Zejména v modelu multinomiální logit lze skóre přímo převést na hodnotu pravděpodobnosti, což označuje pravděpodobnost pozorování i výběr výsledku k vzhledem k naměřeným charakteristikám pozorování. To poskytuje principiální způsob začlenění predikce konkrétního modelu multinomiální logit do větší procedury, která může zahrnovat více takových předpovědí, každá s možností chyby. Bez takových prostředků, jak kombinovat předpovědi, mají chyby tendenci se množit. Představte si například velkou prediktivní model která je rozdělena na řadu submodelů, kde se predikce daného submodelu používá jako vstup jiného submodelu a tato predikce se zase používá jako vstup do třetího submodelu atd. Pokud má každý submodel 90% přesnost jeho předpovědi a v sérii je pět submodelů, pak má celkový model pouze 0,95 = 59% přesnost. Pokud má každý submodel přesnost 80%, celková přesnost klesne na 0,85 = 33% přesnost. Tento problém je známý jako šíření chyb a je vážným problémem v prediktivních modelech reálného světa, které se obvykle skládají z mnoha částí. Jedním ze způsobů, jak zmírnit tento problém, je předpovědět pravděpodobnost každého možného výsledku, namísto pouhé jediné optimální predikce.[Citace je zapotřebí ]
Založit
Základní nastavení je stejné jako v logistická regrese Jediným rozdílem je, že závislé proměnné jsou kategorický spíše než binární, tj. existují K. možné výsledky spíše než jen dva. Následující popis je poněkud zkrácen; pro více informací navštivte logistická regrese článek.
Datové body
Konkrétně se předpokládá, že máme řadu N pozorované datové body. Každý datový bod i (od 1 na N) se skládá ze sady M vysvětlující proměnné X1, tj ... XM, i (aka nezávislé proměnné, predikční proměnné, funkce atd.) a související kategorický výsledek Yi (aka závislá proměnná, proměnná odpovědi), která může nabývat jedné z K. možné hodnoty. Tyto možné hodnoty představují logicky oddělené kategorie (např. Různé politické strany, krevní skupiny atd.) A jsou často popsány matematicky libovolným přiřazením čísla od 1 do K.. Vysvětlující proměnné a výsledek představují pozorované vlastnosti datových bodů a jsou často považovány za pocházející z pozorování N „experimenty“ - i když „experiment“ nemusí spočívat v ničím jiném než ve shromažďování údajů. Cílem multinomiální logistické regrese je konstrukce modelu, který vysvětluje vztah mezi vysvětlujícími proměnnými a výsledkem, aby bylo možné správně předpovědět výsledek nového „experimentu“ pro nový datový bod, pro který vysvětlující proměnné, ale nikoli výsledek jsou k dispozici. V tomto procesu se model pokouší vysvětlit relativní účinek různých vysvětlujících proměnných na výsledek.
Nějaké příklady:
- Pozorovanými výsledky jsou různé varianty onemocnění, jako je hepatitida (případně zahrnující „žádné onemocnění“ a / nebo jiná související onemocnění) u souboru pacientů a vysvětlujícími proměnnými mohou být charakteristiky pacientů považovaných za relevantní (pohlaví, rasa, věk, krevní tlak, výsledky různých testů jaterních funkcí atd.). Cílem je pak předpovědět, které onemocnění způsobuje u nového pacienta pozorované příznaky související s játry.
- Pozorované výsledky jsou stranou zvolenou skupinou lidí ve volbách a vysvětlujícími proměnnými jsou demografické charakteristiky každé osoby (např. Pohlaví, rasa, věk, příjem atd.). Cílem je pak předpovědět pravděpodobné hlasování nového voliče s danými vlastnostmi.
Lineární prediktor
Stejně jako v jiných formách lineární regrese používá multinomiální logistická regrese a funkce lineárního prediktoru předpovědět pravděpodobnost tohoto pozorování i má výsledek k, v následující podobě:
kde je regresní koeficient spojené s mvysvětlující proměnná a kth výsledek. Jak je vysvětleno v logistická regrese článku jsou regresní koeficienty a vysvětlující proměnné obvykle seskupeny do vektorů velikosti M + 1, takže funkce prediktoru může být napsána kompaktněji:
kde je sada regresních koeficientů spojených s výsledkem k, a (řádkový vektor) je sada vysvětlujících proměnných spojených s pozorováním i.
Jako sada nezávislých binárních regresí
Abychom dospěli k modelu multinomiální logit, lze si představit, pro K. možné výsledky, běh K.-1 nezávislé binární logistické regresní modely, ve kterých je jeden výsledek vybrán jako „pivot“ a poté druhý K.-1 výsledky jsou samostatně regresovány proti pivotnímu výsledku. V případě výsledku by to probíhalo následovně K. (poslední výsledek) je vybrán jako pivot:
Všimněte si, že jsme zavedli samostatné sady regresních koeficientů, jeden pro každý možný výsledek.
Pokud umocníme obě strany a vyřešíme pravděpodobnosti, dostaneme:
S využitím toho, že všechno K. z pravděpodobností se musí sečíst jedna, zjistíme:
Můžeme to použít k nalezení dalších pravděpodobností:
Skutečnost, že provádíme více regresí, odhaluje, proč se model spoléhá na předpoklad nezávislost irelevantních alternativ popsáno výše.
Odhad koeficientů
Neznámé parametry v každém vektoru βk jsou obvykle společně odhadovány maximálně a posteriori (MAP), což je rozšíření o maximální pravděpodobnost použitím regulace váh, aby se zabránilo patologickým řešením (obvykle čtvercová regularizační funkce, která je ekvivalentní umístění nulové střední hodnoty) Gaussian předchozí distribuce na vahách, ale jsou možná i jiná rozdělení). Řešení se obvykle nachází pomocí iteračního postupu, jako je zobecněné iterativní škálování,[7] iterativně vyvažované nejméně čtverce (IRLS),[8] pomocí gradientní optimalizace algoritmy jako např L-BFGS,[4] nebo specializované sestup souřadnic algoritmy.[9]
Jako log-lineární model
Formulace binární logistické regrese jako a log-lineární model lze přímo rozšířit na vícesměrnou regresi. To znamená, že modelujeme logaritmus pravděpodobnosti vidění daného výstupu pomocí lineárního prediktoru i přídavku normalizační faktor logaritmus funkce oddílu:
Stejně jako v binárním případě potřebujeme další termín zajistit, aby celá sada pravděpodobností tvořila a rozdělení pravděpodobnosti, tj. tak, aby se všechny sčítaly do jedné:
Důvod, proč potřebujeme přidat výraz, abychom zajistili normalizaci, namísto násobení, jak je obvyklé, je ten, že jsme vzali logaritmus pravděpodobností. Exponování obou stran promění aditivní člen na multiplikativní faktor, takže pravděpodobnost je právě Gibbsova míra:
Množství Z se nazývá funkce oddílu pro distribuci. Můžeme vypočítat hodnotu funkce oddílu použitím výše uvedeného omezení, které vyžaduje, aby všechny pravděpodobnosti byly součtem 1:
Proto:
Všimněte si, že tento faktor je „konstantní“ v tom smyslu, že není funkcí Yi, což je proměnná, nad kterou je definováno rozdělení pravděpodobnosti. Rozhodně to však není konstantní s ohledem na vysvětlující proměnné nebo zásadně s ohledem na neznámé regresní koeficienty βk, které budeme muset určit pomocí nějakého druhu optimalizace postup.
Výsledné rovnice pro pravděpodobnosti jsou
Nebo obecně:
Následující funkce:
se označuje jako funkce softmax. Důvodem je, že účinek umocňování hodnot je zveličovat rozdíly mezi nimi. Jako výsledek, kdykoli vrátí hodnotu blízkou 0 je podstatně menší než maximum všech hodnot a při použití maximální hodnoty vrátí hodnotu blízkou 1, pokud není extrémně blízká další největší hodnotě. Funkci softmax lze tedy použít ke konstrukci a vážený průměr který se chová jako plynulá funkce (což lze pohodlně diferencované atd.) a který přibližuje funkce indikátoru