Winograd Schema Challenge - Winograd Schema Challenge

The Winograd Schema Challenge (WSC) je test inteligence strojů navržený Hector Levesque, počítačový vědec na University of Toronto. Navrženo jako vylepšení Turingův test, jedná se o test s výběrem odpovědí, který využívá otázky velmi specifické struktury: jsou to instance takzvaných Winogradových schémat, pojmenovaných po Terry Winograd, profesor výpočetní techniky na Stanfordská Univerzita.^[1]

Na první pohled otázky schématu Winograd jednoduše vyžadují rozlišení anafora: stroj musí identifikovat předchůdce nejednoznačný zájmeno ve výpisu. Díky tomu je úkolem zpracování přirozeného jazyka, ale Levesque tvrdí, že pro Winograd Schemas úkol vyžaduje použití znalostí a rozumné uvažování.^[2]

Komunikace Nuance v červenci 2014 oznámila, že bude sponzorovat každoroční soutěž WSC s cenou 25 000 $ za nejlepší systém, který by odpovídal lidské výkonnosti.^[3] Cena však již není nabízena.

Pozadí

Výzva Winograd Schema Challenge byla navržena v duchu Turingův test. Navrhl Alan Turing v roce 1950 hraje Turingův test ústřední roli ve filozofii umělá inteligence. Turing navrhl, že místo debaty o inteligenci by se věda AI měla zabývat demonstrací inteligentního chování, které lze testovat. Přesná povaha testu, který Turing navrhl, však byla podrobena kontrole, zejména proto, že chatovací robot AI jménem Eugene tvrdil, že jej absolvoval v roce 2014. Výzva Winograd Schema Challenge byla zčásti navržena ke zlepšení problémů, které vyšly najevo povahou programy, které v testu fungovaly dobře.^[4]

Turingův původní návrh byl tím, čemu říkal imitace hry, který zahrnuje plynulé, neomezené konverzace v angličtině mezi lidskými soudci a počítačovými programy přes pouze textový kanál (například dálnopis). Obecně platí, že stroj projde testem, pokud vyšetřovatelé nejsou schopni rozlišit rozdíl mezi ním a člověkem v pětiminutové konverzaci.^[5]

Eugene Goostman

7. června 2014 byl pojmenován počítačový program Eugene Goostman byl prohlášen za první AI, který prošel Turingovým testem v soutěži pořádané University of Reading v Anglii. V soutěži dokázal Eugene přesvědčit 33% soudců, že hovoří s 13letým ukrajinským chlapcem.^[6] Předpokládané vítězství stroje, který si myslel, vzbudilo spory o Turingův test. Kritici tvrdili, že Eugene prošel testem jednoduše tím, že oklamal soudce a využil výhod své údajné identity. Mohlo by například snadno přeskočit některé klíčové otázky vtipkováním a změnou témat. Soudce by však chyby odpustil, protože Eugene se identifikoval jako teenager, který jako druhý jazyk hovoří anglicky.^[7]

Slabé stránky Turingova testu

Vystoupení Eugena Goostmana vykazovalo některé problémy Turingova testu. Levesque identifikuje několik hlavních problémů,^[2] shrnuto takto:^[8]

Podvod: Stroj je nucen konstruovat falešnou identitu, která není součástí inteligence.
Konverzace: Mnoho interakcí lze kvalifikovat jako „legitimní konverzaci“ - vtipy, chytrí asistenti, procedurální body - bez nutnosti inteligentního uvažování.
Hodnocení: Lidé dělají chyby a soudci by často nesouhlasili s výsledky.

Winogradská schémata

Klíčovým faktorem WSC je speciální formát jeho otázek, které jsou odvozeny z Winograd Schemas. Otázky tohoto formuláře mohou být přizpůsobeny tak, aby vyžadovaly znalosti a rozumné uvažování v různých doménách. Musí být také pečlivě napsáni, aby nezradili své odpovědi výběrová omezení nebo statistické informace o slovech ve větě.

Původ

První citovaný příklad Winogradského schématu (a důvod jejich jmenovce) je způsoben Terry Winograd:^[9]

Členové městské rady odmítli demonstrantům povolení, protože se [obávali / obhajovali] násilí.

Volby „obávaného“ a „obhajovaného“ mění schéma na jeho dvě instance:

Členové městské rady odmítli demonstrantům povolení, protože se obávali násilí.

Členové městské rady odmítli demonstrantům povolení, protože obhajovali násilí.

Otázkou je, zda zájmeno „oni“ odkazuje na členy městské rady nebo demonstranty, a přepínání mezi dvěma instancemi schématu změní odpověď. Odpověď je pro lidského čtenáře okamžitá, ale je obtížné jej napodobit ve strojích. Levesque^[2] tvrdí, že v těchto problémech hraje ústřední roli znalost: odpověď na toto schéma souvisí s naším chápáním typických vztahů a chování radních a demonstrantů.

Od původního návrhu Winograd Schema Challenge Ernest Davis, profesor na Newyorská univerzita, sestavil seznam více než 140 Winogradských schémat z různých zdrojů jako příklady druhů otázek, které by se měly objevit ve Winograd Schema Challenge.^[10]

Formální popis

Otázka Winograd Schema Challenge se skládá ze tří částí:

Věta nebo krátký projev, který obsahuje následující:
- Dva podstatné jméno fráze stejné sémantická třída (muž, žena, neživý nebo skupina předmětů nebo lidí),
- Nejednoznačné zájmeno které mohou odkazovat na některou z výše uvedených frází podstatného jména a
- Speciální slovo a alternativní slovo, takže pokud je speciální slovo nahrazeno alternativním slovem, změní se přirozené rozlišení zájmena.
Otázka, která žádá o totožnost nejednoznačného zájmena, a
Dvě možnosti odpovědi odpovídající předmětným frázím podstatných jmen.

Stroj dostane problém ve standardizované podobě, která zahrnuje možnosti odpovědí, což z něj činí binární rozhodnutí problém.

Výhody

Winograd Schema Challenge má následující domnělé výhody:

K jejich vyřešení jsou nutné znalosti a rozumné uvažování.
Mohou být navržena Winogradská schémata různé obtížnosti, zahrnující cokoli od jednoduchých vztahů příčin a následků až po složité příběhy událostí.
Mohou být konstruovány tak, aby testovaly schopnost uvažování v konkrétních oblastech (např. Sociální / psychologické nebo prostorové uvažování).
Není potřeba lidských soudců.^[4]

Úskalí

Jednou z potíží s výzvou Winograd Schema Challenge je vývoj otázek. Musí být pečlivě přizpůsobeny, aby bylo zajištěno, že k řešení vyžadují rozumné uvažování. Například Levesque^[4] uvádí následující příklad takzvaného Winogradova schématu, které je „příliš snadné“:

Ženy přestaly užívat pilulky, protože byly [těhotné / karcinogenní]. Kteří jedinci byli [těhotná / karcinogenní]?

Odpověď na tuto otázku lze určit na základě výběrová omezení: v každé situaci pilulky neotěhotní, ženy ano; ženy nemohou být karcinogenní, ale pilulky ano. Tuto odpověď lze tedy odvodit bez použití uvažování nebo jakéhokoli porozumění významu vět - vše, co je nutné, jsou údaje o omezeních výběru těhotná a karcinogenní.

Aktivita

V letech 2016 a 2018 sponzorovala společnost Nuance Communications soutěž nabízející hlavní cenu 25 000 $ pro nejlepšího střelce nad 90% (pro srovnání, lidé správně odpovídají na 92–96% otázek WSC^[11]). Soutěž v roce 2018 však byla zrušena^[12] a cena již není nabízena.^[13]

Dvanácté mezinárodní sympozium o logických formalizacích rozumového uvažování se konalo ve dnech 23. – 25. Března 2015 na AAAI Series Spring Symposium Series na Stanford University, se zvláštním zaměřením na Winograd Schema Challenge. V organizačním výboru byla Leora Morgenstern (Leidos ), Theodore Patkos (Nadace pro výzkum a technologii Hellas) a Robert Sloan (University of Illinois v Chicagu ).^[14]

Winograd Schema Challenge 2016 proběhla 11. července 2016 na IJCAI-16. Soutěžící byli čtyři. Prvním kolem soutěže bylo vyřešit PDP - problémy disambiguace zájmenů, upravené z literárních zdrojů, které nebyly konstruovány jako dvojice vět.^[15] Nejvyšší dosažené skóre bylo 58% správné, Quan Liu et al., Z University of Science and Technology, China.^[16] Podle pravidel této výzvy tedy nebyly uděleny žádné ceny a výzva nepostoupila do druhého kola. Organizačním výborem v roce 2016 byli Leora Morgenstern, Ernest Davis a Charles Ortiz.

70% přesnost na 70 ručně vybraných problémech z 273^[11] v původním datovém souboru Winograd Schema bylo dosaženo v roce 2017 modelem Neural Association Model navrženým pro získávání znalostí Commonsense.^[17] V červnu 2018 bylo na celé datové sadě dosaženo skóre přesnosti 63,7% pomocí souboru jazykových modelů Recurrent Neural Network^[18], označující první použití hlubokých neuronových sítí, které se učí od nezávislých korpusů k získání znalostí zdravého rozumu. V roce 2019 bylo na původním datovém souboru Winograd Scheme dosaženo skóre 90,1% doladěním BERT jazykový model s příslušnými tréninkovými daty podobnými WSC, abyste se nemuseli učit rozumnému uvažování.^[11] Obecný jazykový model GPT-3 dosáhl v roce 2020 skóre 88,3% bez konkrétního doladění.^[19] V roce 2019 byl navržen náročnější, nepřátelský datový soubor „Winogrande“ se 44 000 problémy. Nejmodernější z tohoto většího datového souboru k srpnu 2020 zůstává u 84,6% uváděných u vyladěných BERT.^[19]

Verze výzvy Winograd Schema Challenge je jednou z částí srovnávací kolekce GLUE (General Language Understanding Evaluation) v automatizovaném porozumění přirozenému jazyku.^[20]

Reference

^ Ackerman, Evan (29. července 2014). „Může Winogradská schémata nahradit Turingův test pro definování AI na úrovni člověka“. IEEE Spectrum. Citováno 29. října 2014.
^ ^A ^b ^C Levesque, H. J. (2014). „Na naše nejlepší chování“. Umělá inteligence. 212: 27–35. doi:10.1016 / j.artint.2014.03.007.
^ „Nuance ohlašuje výzvu Winograd Schemas pro pokrok v oblasti inovace umělé inteligence“. Obchodní drát. 28. července 2014. Citováno 9. listopadu 2014.
^ ^A ^b ^C Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). Výzva Winograd Schema. Sborník příspěvků ze třinácté mezinárodní konference o zásadách reprezentace a uvažování o znalostech. Citováno 29. října 2014.
^ Turing, Alan (Říjen 1950). „Výpočetní technika a inteligence“ (PDF). Mysl. LIX (236): 433–460. doi:10.1093 / mind / LIX.236.433. Citováno 28. října 2014.
^ Ackerman, Evan (říjen 2014). „Lepší test než Turing“. IEEE Spectrum. 51 (10): 20–1. doi:10.1109 / mspec.2014.6905475.
^ Lewis, Tanya (11. srpna 2014). „Brainy Machines Need an updated IQ Test, Expert Say“. Živá věda. Citováno 28. října 2014.
^ Michael, Julian (18. května 2015). Teorie korelačních vzorců a jejich aplikace na diskurzní koherenci. Digitální úložiště UT. p. 6. hdl:2152/29979.
^ Winograd, Terry (leden 1972). „Porozumění přirozenému jazyku“ (PDF). Kognitivní psychologie. 3 (1): 1–191. doi:10.1016/0010-0285(72)90002-3. Citováno 4. listopadu 2014.
^ Davis, Ernest. „Sbírka winogradských schémat“. cs.nyu.edu. NYU. Citováno 30. října 2014.
^ ^A ^b ^C Sakaguchi, Keisuke; Ronan Le Bras; Bhagavatula, Chandra; Choi, Yejin (2019). „WinoGrande: Adversarial Winograd Schema Challenge at Scale“. arXiv:1907.10641 [cs.CL ].
^ Boguslavsky, I.M .; Frolova, T.I .; Iomdin, L.L .; Lazursky, A.V .; Rygaev, I.P .; Timoshenko, S.P. (2019). „Znalostní přístup k výzvě Winograd Schema Challenge“ (PDF). Sborník z mezinárodní konference počítačové lingvistiky a intelektuálních technologií. Moskva.
^ „Výzva Winograd Schema“. CommonsenseReasoning.org. Citováno 24. ledna 2020.
^ „Jarní sympozia 2015 AAAI“. Sdružení pro povýšení umělé inteligence. Citováno 1. ledna 2015.
^ Davis, Ernest; Morgenstern, Leora; Ortiz, Charles (podzim 2017). „První výzva Winograd Schema na IJCAI-16“. AI Magazine.
^ Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2016). "Vkládání znalostí pro zdokonalení znalostí pro řešení problémů disambiguace zájmena ve výzvě Winograd Schema". arXiv:1611.04146 [cs.AI ].
^ Liu, Quan; Jiang, Hui; Evdokimov, Andrew; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2017). „Získávání znalostí o příčině-efektu a model neurální asociace pro řešení řady problémů s Winogradovým schématem“. Sborník dvacátého šestého Mezinárodní společná konference o umělé inteligenci: 2344–2350. doi:10.24963 / ijcai.2017 / 326.
^ Trinh, Trieu H .; Le, Quoc V. (26. září 2019). „Jednoduchá metoda rozumového uvažování“. arXiv: 1806.02847 [cs].
^ ^A ^b Brown, Tom B .; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Dítě, Rewon; Ramesh, Aditya; Ziegler, Daniel M .; Wu, Jeffrey; Zima, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Šachy, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; et al. (2020). „Jazykové modely jsou žáci několika výstřelů“. arXiv:2005.14165 [cs.CL ].
^ „GLUE Benchmark“. GlueBenchmark.com. Citováno 30. července 2019.

externí odkazy

Web pro soutěž sponzorovanou společností Nuance Communications

[ieee_web-1] Ackerman, Evan (29. července 2014). „Může Winogradská schémata nahradit Turingův test pro definování AI na úrovni člověka“. IEEE Spectrum. Citováno 29. října 2014.

[Levesque14-2] A ^b ^C Levesque, H. J. (2014). „Na naše nejlepší chování“. Umělá inteligence. 212: 27–35. doi:10.1016 / j.artint.2014.03.007.

[nuance-3] „Nuance ohlašuje výzvu Winograd Schemas pro pokrok v oblasti inovace umělé inteligence“. Obchodní drát. 28. července 2014. Citováno 9. listopadu 2014.

[Hector-4] A ^b ^C Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). Výzva Winograd Schema. Sborník příspěvků ze třinácté mezinárodní konference o zásadách reprezentace a uvažování o znalostech. Citováno 29. října 2014.

[Turing_paper-5] Turing, Alan (Říjen 1950). „Výpočetní technika a inteligence“ (PDF). Mysl. LIX (236): 433–460. doi:10.1093 / mind / LIX.236.433. Citováno 28. října 2014.

[IEEE_journal-6] Ackerman, Evan (říjen 2014). „Lepší test než Turing“. IEEE Spectrum. 51 (10): 20–1. doi:10.1109 / mspec.2014.6905475.

[live_science-7] Lewis, Tanya (11. srpna 2014). „Brainy Machines Need an updated IQ Test, Expert Say“. Živá věda. Citováno 28. října 2014.

[Michael15-8] Michael, Julian (18. května 2015). Teorie korelačních vzorců a jejich aplikace na diskurzní koherenci. Digitální úložiště UT. p. 6. hdl:2152/29979.

[UNL-9] Winograd, Terry (leden 1972). „Porozumění přirozenému jazyku“ (PDF). Kognitivní psychologie. 3 (1): 1–191. doi:10.1016/0010-0285(72)90002-3. Citováno 4. listopadu 2014.

[collection-10] Davis, Ernest. „Sbírka winogradských schémat“. cs.nyu.edu. NYU. Citováno 30. října 2014.

[Sakaguchi-11] A ^b ^C Sakaguchi, Keisuke; Ronan Le Bras; Bhagavatula, Chandra; Choi, Yejin (2019). „WinoGrande: Adversarial Winograd Schema Challenge at Scale“. arXiv:1907.10641 [cs.CL ].

[12] Boguslavsky, I.M .; Frolova, T.I .; Iomdin, L.L .; Lazursky, A.V .; Rygaev, I.P .; Timoshenko, S.P. (2019). „Znalostní přístup k výzvě Winograd Schema Challenge“ (PDF). Sborník z mezinárodní konference počítačové lingvistiky a intelektuálních technologií. Moskva.

[CR-13] „Výzva Winograd Schema“. CommonsenseReasoning.org. Citováno 24. ledna 2020.

[AIII-14] „Jarní sympozia 2015 AAAI“. Sdružení pro povýšení umělé inteligence. Citováno 1. ledna 2015.

[15] Davis, Ernest; Morgenstern, Leora; Ortiz, Charles (podzim 2017). „První výzva Winograd Schema na IJCAI-16“. AI Magazine.

[16] Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2016). "Vkládání znalostí pro zdokonalení znalostí pro řešení problémů disambiguace zájmena ve výzvě Winograd Schema". arXiv:1611.04146 [cs.AI ].

[17] Liu, Quan; Jiang, Hui; Evdokimov, Andrew; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2017). „Získávání znalostí o příčině-efektu a model neurální asociace pro řešení řady problémů s Winogradovým schématem“. Sborník dvacátého šestého Mezinárodní společná konference o umělé inteligenci: 2344–2350. doi:10.24963 / ijcai.2017 / 326.

[18] Trinh, Trieu H .; Le, Quoc V. (26. září 2019). „Jednoduchá metoda rozumového uvažování“. arXiv: 1806.02847 [cs].

[Brown_et_al_2020-19] A ^b Brown, Tom B .; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Dítě, Rewon; Ramesh, Aditya; Ziegler, Daniel M .; Wu, Jeffrey; Zima, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Šachy, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; et al. (2020). „Jazykové modely jsou žáci několika výstřelů“. arXiv:2005.14165 [cs.CL ].

[20] „GLUE Benchmark“. GlueBenchmark.com. Citováno 30. července 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]