FORR - FORR

FORR (FOr the Right Reasons) je a kognitivní architektura pro učení se a řešení problému inspirovaný Herbert A. Simon nápady uživatele omezená racionalita a uspokojivý. Poprvé byl vyvinut na počátku 90. let v City University of New York. Bylo použito v hraní her, hledání cesty robota, design rekreačního parku, mluvené dialogové systémy a řešení NP-tvrdé problémy s uspokojením omezení a je dostatečně obecný pro mnoho aplikací pro řešení problémů.

Pozadí

Omezená racionalita

FORR nemá dokonalé znalosti o tom, jak vyřešit problém, ale místo toho se učí ze zkušeností. Inteligentní agenti nejsou optimální, ale rozhodují se pouze na základě podmnožiny všech možných dobrých důvodů a informativních údajů. Tito agenti lze stále považovat za racionální. Tato myšlenka omezená racionalita byl představen Herbert A. Simon,[1] kdo spolu s Allen Newell vyvinul rané základy studia kognitivních architektur a také inspiroval rané architektury jako např Stoupat a ACT-R.

Několik dobrých důvodů

FORR závisí na myšlence, že pro řešení akcí při řešení problému existuje několik důvodů nebo zdůvodnění. Tyto důvody mohou být vždy správné (vždy je správné udělat tah v šachu, který dá soupeře do šachu), nebo jen občas správné. Vždy správným důvodem je menšina. Někdy správné důvody se mohou navzájem doplňovat: například při hraní her může být jedním dobrým důvodem popadnutí dílků, zatímco jiným může být ovládání určité oblasti hracího plánu. Ve FORR se tyto konkurenční důvody nazývají Poradci.

Víceúrovňový systém poradců je dostatečně obecný na to, aby měl jakýkoli potenciální dobrý důvod, například pravděpodobnostní, deduktivní nebo vnímavý lze implementovat, pokud poskytuje rady ohledně preference jedné akce před druhou.

Vzhledem k tomu, že se spoléhá na skupinu nezávislých agentů (poradců), lze FORR považovat za spojovací pracovník architektura.

Architektura

Architektura FORR má tři komponenty: sadu popisy které popisují stav problému, odstupňovanou sadu Poradci které jsou konzultovány za účelem rozhodnutí, jakou akci provést, a behaviorální skript který se zeptá poradců a provede akci, kterou navrhnou.[2]


Poradci

Poradci jsou souborem zdůvodnění nebo heuristiky pro rozhodování. Mohou být považovány za procedurální paměť součást architektury. Při každém novém rozhodnutí jsou dotázáni poradci, aby mohli rozhodnout, kterou akci provést. Poradci mezi sebou nikdy nekomunikují ani se neučí sami: jednoduše si vyžádají informace o stavu problému uložené ve formě popisů a na základě těchto informací navrhnou. Poradci jsou rozděleni do tří úrovní, které jsou dotazovány v následujícím pořadí:

  • Úroveň 1: Tito poradci mají vždy pravdu. Pokud tyto naznačují akci, tato akce se provede okamžitě a dotaz končí. Pokud zakázají akci, je tato akce odebrána z úvahy. V opačném případě přejděte na další úroveň.
  • Úroveň 2: pokud je jedním z těchto poradců spuštěno, navrhuje dílčí problém nebo uspořádaný soubor akcí, kterým se dosáhne dílčího cíle při řešení celkového problému (například pohyb kolem jedné překážky v bludišti). Pokud není spuštěn žádný poradce úrovně 2, přejděte na poslední úroveň.
  • Úroveň 3: to jsou všechny ostatní důvody. Nemají vždy pravdu, ale navzájem si konkurují. Hlasují o akci a je proveden nejvyšší hlasovaný návrh. Různé třídy problémů ve stejné doméně budou mít různé váhy pro stejné poradce a váhy jsou vyvíjeny na základě zkušeností učení se algoritmy.

Popisné

The deklarativní paměť Součástí architektury jsou popisy, které představují stav problému a jsou k dispozici každému poradci.

Behaviorální scénář

Behaviorální skript dotazuje každou vrstvu poradců postupně. Pokud poradce úrovně 1 navrhne akci, provede akci skript. V opačném případě, pokud je spuštěn poradce 2. úrovně, znamená to, že došlo k dílčímu problému. Poradce úrovně 1 zaručuje, že je kdykoli aktivní pouze jeden poradce úrovně 2. Pokud se nespustí žádné komentáře úrovně 1 a žádný poradce úrovně 2, behaviorální skript požádá o návrhy nebo komentáře od všech úrovní 3 poradců a nechá je hlasovat. Skript provede akci s nejvyšším hlasem ze všech poradců 3. úrovně.

Implementace architektury FORR

Problémová doména je sada podobných problémů, která se nazývá problémové třídy. Pokud je problémovou doménou hraní jednoduchých deskových her, pak piškvorky je problémová třída a jedna konkrétní hra tic-tac-toe je problémová instance. Pokud je navigace v bludišti doménou problému, pak konkrétní bludiště je třída a jeden pokus o jeho navigaci je instance. Jakmile je problémová doména identifikována, implementace architektury FORR pro tuto doménu má dvě základní fáze: hledání možných správných důvodů (poradci) a učení jejich váhy pro konkrétní třídu.

Jak postavit architekturu FORR

  1. Rozhodněte o problémové doméně.
  2. Pomocí doménových znalostí, průzkumů literatury, intuice a rozumu vyjmenujte seznam možných důvodů pro rozhodování, které může být dobré nebo špatné pro různé třídy v doméně. Tyto důvody jsou Poradci.
  3. Rozdělte poradce do úrovní:
    1. Poradci, kteří mají vždy pravdu, jsou na úrovni 1. Například je vždy správné udělat vítězný tah v deskové hře.
    2. Poradci, kteří identifikují dílčí problém, jdou do úrovně 2. Například obejít zeď v bludišti.
    3. Každý další poradce je 3. úrovně.
  4. Kódujte poradce. Každý poradce vrací sadu navrhovaných akcí spolu s váhami pro každou navrhovanou akci. Váhy jsou zpočátku nastaveny na jednotnou hodnotu, například 0,05.
  5. Uveďte všechny informace o stavu problému, které potřebují všichni poradci. Toto jsou popisy. Kódujte je.
  6. Kódujte behaviorální skript, který dotazuje poradce a provede akci, kterou navrhnou.
  7. Naučte se váhy pro poradce na řadě konkrétních problémových instancí v Fáze učení používat Posílení učení algoritmus.
  8. Otestujte architekturu na sadě dříve nezjištěných instancí problému.

Váhy Learning Advisor

Poradci jsou stejní pro všechny problémové třídy v doméně, ale váhy se mohou u každé třídy v doméně lišit. Důležitá heuristika pro tic-tac-toe nemusí být pro jinou deskovou hru důležitá. FORR se na základě zkušeností učí váhy pro své poradce 3. úrovně. Poradci, kteří navrhnou akci vedoucí k neúspěchu, mají své váhy penalizovány, a poradci, jejichž návrhy vedou k úspěchu, mají zvýšenou váhu. Algoritmy učení se liší mezi implementacemi.

Aplikace

FORR byl použit pro hraní her, hledání robotů, problémy s uspokojením omezení, design parku a mluvené dialogové systémy.[3][4]

Viz také

Reference

  1. ^ Simon, H.A. (1981) The Sciences of Artificial
  2. ^ Epstein (1992) Využití konfliktu: architektura FORR
  3. ^ Například aplikace viz domovskou stránku FORR
  4. ^ Informace o použití FORR v systémech mluveného dialogu najdete v FORRSooth at Projekt Loqui
Poznámky

externí odkazy