Optimistický gradient znalostí - Optimistic knowledge gradient

v statistika The optimistický gradient znalostí[1] je politika přibližování, kterou navrhli Xi Chen, Qihang Lin a Dengyong Zhou v roce 2013. Tato politika je vytvořena za účelem vyřešení problému spočívajícího ve výpočetně neřešitelné velké velikosti optimální výpočetní alokace rozpočtu problém v binárním / vícetřídovém značení davu, kde každý štítek z davu má určitou cenu.[2]

Motivace

The optimální výpočetní alokace rozpočtu problém je formulován jako Bayesian Markovův rozhodovací proces[3](MDP) a řeší se pomocí dynamické programování Algoritmus (DP), kde se politika optimistického znalostního gradientu používá k řešení výpočtově neřešitelného dynamické programování[4] (DP) algoritmus.

Zvažte problém s přidělením rozpočtu v crowdsourcing. Zvláštní problém crowdsourcingu, který zvažujeme, je označování davů. Značení davu je velké množství Značení úkoly, které se těžko řeší strojem, se ukázaly být snadno vyřešitelnými lidmi, pak jsme pouze zadali neidentifikovanou skupinu náhodných lidí v distribuovaném prostředí.

Metodologie

Chceme dokončit tento úkol označování, doufejme, že se spoléháme na sílu davu. Předpokládejme například, že chceme identifikovat obrázek podle toho, že lidé na obrázku jsou dospělí nebo ne, to je Bernoulli problém označování a každý z nás to zvládne za jednu nebo dvě sekundy, je to pro člověka snadný úkol. Pokud však máme takové desítky tisíc obrázků, už to není snadný úkol. Proto se musíme spolehnout crowdsourcing rámec, aby to bylo rychlé. Crowdsourcing rámec se skládá ze dvou kroků. Krok první, jen dynamicky získáváme z davu předměty. Na druhé straně se jedná o dynamický postup. Tento obrázek neposíláme jen všem a zaměřujeme každou odpověď, místo toho to děláme v množství. Rozhodneme se, který obrázek jej pošleme v příštím, a kterého pracovníka si najmeme v davu v dalším. Podle jeho historických výsledků označování. Každý obrázek lze odeslat více pracovníkům a každý pracovník může také pracovat na různých obrázcích. Poté, co shromáždíme dostatečný počet štítků pro jiný obrázek, přejdeme k druhým krokům, kde chceme odvodit skutečný štítek každého obrázku na základě shromážděných štítků. Existuje tedy několik způsobů, jak můžeme odvodit. Například nejjednodušší, co můžeme udělat, je hlasování většinou. Problém je v tom, že žádný oběd zdarma, musíme platit za pracovníka za každý štítek, který poskytuje, a máme pouze omezený rozpočet projektu. Otázkou tedy je, jak chytře utratit omezený rozpočet.

Výzvy

Před ukázáním matematického modelu se práce zmiňuje o tom, jakým výzvám čelíme.

Výzva 1

Za prvé, položky mají jinou úroveň obtížnosti pro výpočet štítku, v předchozím příkladu lze některé obrázky snadno klasifikovat. V tomto případě obvykle uvidíte velmi konzistentní štítky z davu. Pokud jsou však některé obrázky nejednoznačné, lidé mohou mezi sebou nesouhlasit, což vede k vysoce nekonzistentnímu označování. Můžeme tedy přidělit více zdrojů na tento nejednoznačný úkol.

Výzva 2

A dalším problémem, který často máme, je to, že pracovník není dokonalý, někdy tento pracovník není odpovědný, pouze poskytuje náhodný štítek, proto bychom samozřejmě za tento rozpočet neutratili žádného spolehlivého pracovníka. Nyní je problémem jak obtížnost obrázků, tak spolehlivost pracovníka, kterého jsme na začátku úplně neznali. Můžeme je pouze odhadnout během postupu. Proto přirozeně čelíme průzkumu a vykořisťování a naším cílem je poskytnout přiměřeně dobrou politiku utrácení peněz správným způsobem - maximalizovat celkovou přesnost konečných odvozených štítků.

Matematický model

Pro matematický model máme K. položky, a celkový rozpočet je T a předpokládáme, že každý štítek stojí 1, takže ho budeme mít T popřípadě štítky. Předpokládáme, že každá položka má skutečný štítek které pozitivní nebo negativní, to binomické případy a můžeme rozšířit na více tříd, označování případů, to je jedinečný nápad. A pozitivní sada je definována jako sada položek, jejichž skutečný štítek je kladný. A také definoval soft-label, pro každou položku, které číslo mezi 0 a 1, a my definujeme jako základní pravděpodobnost, že bude členem náhodně vybraným ze skupiny dokonalých pracovníků označen jako pozitivní.

V tomto prvním případě předpokládáme, že každý pracovník je dokonalý, to znamená, že jsou všichni spolehliví, ale být dokonalým neznamená, že tento pracovník dává stejnou nebo správnou odpověď. Znamená to jen, že se budou snažit přijít na nejlepší odpověď ve své mysli a předpokládejme, že každý je perfektní pracovník, jen náhodně vybral jednu z nich a Pravděpodobně dostaneme člověka, který věří, že je pozitivní. Takto vysvětlujeme . Předpokládáme tedy označení je čerpán z Bernoulli (), a musí být v souladu se skutečným štítkem, což znamená je větší nebo rovno 0,5 právě tehdy, pokud je tato položka pozitivní se skutečným pozitivním štítkem. Naším cílem je tedy naučit se H *, soubor pozitivních položek. Jinými slovy, chceme udělat odvozenou kladnou množinu H na základě shromážděných štítků, abychom maximalizovali:

Může být také napsán jako:

krok 1: Bayesovský rozhodovací proces

Před ukázkou Bayesiánského rámce se v článku používá příklad ke zmínce, proč místo frekvenčního přístupu volíme Bayesian, abychom mohli na soft-labelu navrhnout nějakou zadní část předchozí distribuce . Předpokládáme každý je čerpáno ze známé Beta před:

A matice:

Víme tedy, že Bernoulliho konjugát beta, takže jakmile získáme nový štítek pro položku i, budeme aktualizovat zadní distribuci, distribuci beta o:

V závislosti na štítku je pozitivní nebo negativní.

Tady je celý postup na vysoké úrovni, máme T fázi, . A v současné fázi se podíváme na matici S, která shrnuje informace o zadní distribuci pro všechny

Chystáme se rozhodnout, vybrat další položku, kterou chcete označit , .

A v závislosti na tom, co je štítek pozitivní nebo negativní, přidáme matici k získání štítku:

Především je to celý rámec.

krok 2: Odvození na kladné množině

Když t štítky jsou shromažďovány, můžeme vyvodit závěr o pozitivní sadě Ht na základě zadní distribuce dané St

Takže zde se stáváme problémem Bernoulliho výběru, stačí se podívat na pravděpodobnost pozitivity nebo negativity podmínění vidět je větší než 0,5 nebo ne, pokud je větší než 0,5, dokážeme tuto položku do aktuální kladné množiny odvození jedná se tedy o nákladovou formu pro současné optimální řešení na základě informací v .

Poté, co víte, co je optimální řešení, pak práce ukazuje, jaká je optimální hodnota. Zástrčka v optimální funkci,

Tato funkce je pouze jedna funkce, která volí větší mezi podmíněnou pravděpodobností kladné a záporné funkce. Jakmile získáme ještě jeden štítek pro položku i, vezmeme rozdíl mezi touto hodnotou, před a po získání nového štítku můžeme vidět, že tato podmíněná pravděpodobnost se může ve skutečnosti zjednodušit takto:

Pozitivní položka, která je kladná, závisí pouze na beta zadním, tedy pokud je pouze funkce parametru distribuční funkce beta A a b, tak jako

Ještě jeden štítek pro tuto konkrétní položku, zdvojnásobíme změnu zadní funkce, takže všechny tyto položky lze zrušit kromě 1, takže se jedná o změnu celé přesnosti a definovali jsme ji jako odměnu po etapách: zlepšení přesnosti odvození o další vzorek. Tento štítek má samozřejmě dvě kladné hodnoty, dostaneme pozitivní štítek nebo negativní štítek, vezměte průměr za tyto dva, získejte očekávanou odměnu. Jednoduše jsme vybrali položku, která má být označena, aby byla očekávaná odměna maximalizována pomocí Znalostní přechod:

Jedná se o více položek, dejte nám vědět, jak zlomíme pouta. Pokud deterministicky zlomíme kravatu, což znamená, že zvolíme nejmenší index. Budeme mít problém, protože to není konzistentní, což znamená pozitivní fázi nekonverguje do skutečně pozitivní fáze .

Můžeme se tedy také pokusit zlomit vazby náhodně, funguje to, ale uvidíme, že výkon bude téměř jako uniformní vzorkování, je nejlepší odměnou. Politika pisatele je něco chamtivějšího, místo abychom zvolili průměr ve fázi odměny jednou, můžeme ve skutečnosti vypočítat větší, maximální možnou odměnu ve dvou fázích, takže Optimistický gradient znalostí:

A víme, že pod optimistickým gradientem znalostí se konečná přesnost závěru sblíží na 100%. Výše je založeno na tom, že každý pracovník je dokonalý, nicméně v praxi nejsou pracovníci vždy zodpovědní. Pokud tedy u nedokonalých pracovníků předpokládáme K položek, .

Pravděpodobnost položky být dokonalým pracovníkem označen jako pozitivní. , Pravděpodobnost pracovníka dávat stejné označení jako dokonalý pracovník. Distribuce štítku od pracovníka k položce :

A akční prostor je takový

kde , matice štítků:

Je těžké to vypočítat, takže můžeme použít Variační Bayesovské metody[5] z

Reference

  1. ^ [1] Statistické rozhodování pro optimální alokaci rozpočtu v označení davů Xi Chen, Qihang Lin, Dengyong Zhou; 16 (Jan): 1-46, 2015.
  2. ^ [2] Sborník z 30. mezinárodní konference o strojovém učení, Atlanta, Georgia, USA, 2013. JMLR: svazek W&CP 28. Xi Chen, Qihang Lin, Dengyong Zhou
  3. ^ *Naučit se řešit Markovianovy rozhodovací procesy podle Satinder P. Singh
  4. ^ Úvod do dynamického programování
  5. ^ * Variační Bayesovo úložiště Repozitář papírů, softwaru a odkazů souvisejících s použitím variačních metod pro přibližné Bayesovské učení