Symbolická regrese - Symbolic regression

Výraz strom jak to může být použito v symbolické regrese k reprezentaci funkce.

Symbolická regrese (SR) je typ regresní analýza který prohledává prostor matematických výrazů a hledá model, který nejlépe vyhovuje dané datové sadě, a to jak z hlediska přesnosti, tak jednoduchosti. Jako výchozí bod algoritmu není poskytován žádný konkrétní model. Místo toho jsou počáteční výrazy tvořeny náhodným kombinováním matematických stavebních bloků, jako je matematické operátory, analytické funkce, konstanty, a stavové proměnné. Podskupinu těchto primitiv obvykle určí osoba, která je obsluhuje, ale není to požadavek této techniky. Problém symbolické regrese pro matematické funkce byl řešen řadou metod, včetně rekombinace rovnic nejčastěji používajících genetické programování[1], stejně jako novější metody využívající Bayesovské metody [2] a fyzika inspirována AI.[3] Druhá neklasická alternativní metoda k SR se nazývá Původce univerzálních funkcí (UFO), který má jiný mechanismus, vyhledávací prostor a strategii budování.[4]

Nevyžadováním specifického modelu, který má být specifikován, není symbolická regrese ovlivněna lidskou zaujatostí nebo neznámými mezerami znalost domény. Pokouší se odhalit vnitřní vztahy datové sady tím, že nechá vzory v datech sama odhalit příslušné modely, spíše než vnucuje strukturu modelu, která je z lidského hlediska považována za matematicky přijatelnou. The fitness funkce který řídí vývoj modelů, bere v úvahu nejen chybové metriky (aby modely přesně předpovídaly data), ale také speciální opatření ke složitosti,[5] čímž je zajištěno, že výsledné modely odhalí podkladovou strukturu dat způsobem, který je srozumitelný z lidské perspektivy. To usnadňuje uvažování a upřednostňuje pravděpodobnost získání přehledu o systému generujícím data.

Rozdíl od klasické regrese

Zatímco konvenční regresní techniky se snaží optimalizovat parametry pro předem specifikovanou strukturu modelu, symbolická regrese se vyhne zavedení předchozích předpokladů a místo toho odvodí model z dat. Jinými slovy, pokouší se objevit jak modelové struktury, tak parametry modelu.

Tento přístup má tu nevýhodu, že má mnohem větší prostor pro vyhledávání, protože nejen prostor pro vyhledávání v symbolické regrese je nekonečný, ale existuje nekonečné množství modelů, které se perfektně vejdou do konečné sady dat (za předpokladu, že složitost modelu t uměle omezeno). To znamená, že nalezení vhodného modelu a parametrizace bude pravděpodobně trvat algoritmus symbolické regrese déle než tradiční regresní techniky. To lze zmírnit omezením sady stavebních bloků poskytovaných algoritmu na základě stávajících znalostí systému, který data vytvořil; ale nakonec je použití symbolické regrese rozhodnutí, které je třeba vyvážit s tím, kolik toho je o základním systému známo.

Tato charakteristika symbolické regrese má nicméně i své výhody: protože evoluční algoritmus vyžaduje rozmanitost, aby bylo možné efektivně prozkoumat vyhledávací prostor, konečným výsledkem bude pravděpodobně výběr modelů s vysokým skóre (a jejich odpovídající sada parametrů). Zkoumání této kolekce by mohlo poskytnout lepší vhled do základního procesu a umožňuje uživateli identifikovat aproximaci, která lépe odpovídá jejich potřebám z hlediska přesnosti a jednoduchosti.

Viz také

Reference

  1. ^ Michael Schmidt; Hod Lipson (2009). „Destilace přírodních zákonů volné formy z experimentálních dat“. Věda. Americká asociace pro rozvoj vědy. 324 (5923): 81–85. Bibcode:2009Sci ... 324 ... 81S. CiteSeerX  10.1.1.308.2245. doi:10.1126 / science.1165893. PMID  19342586.
  2. ^ Ying Jin; Weilin Fu; Jian Kang; Jiadong Guo; Jian Guo (2019). "Bayesiánská symbolická regrese". arXiv:1910.08892 [stat.ME ].
  3. ^ A b Silviu-Marian Udrescu; Max Tegmark (2020). „AI Feynman: Fyzikálně inspirovaná metoda symbolické regrese“. Věda_Advance. Americká asociace pro rozvoj vědy. 6 (16): eaay2631. doi:10.1126 / sciadv.aay2631. PMC  7159912. PMID  32426452.
  4. ^ Ali R. Al-Roomi; Mohamed E. El-Hawary (2020). "Původce univerzálních funkcí". Applied Soft Computing. Elsevier B.V. 94: 106417. doi:10.1016 / j.asoc.2020.106417. ISSN  1568-4946.
  5. ^ Ekaterina J. Vladislavleva; Guido F. Smits; Dick Den Hertog (2009). „Řád nelinearity jako měřítko složitosti pro modely generované symbolickou regresí pomocí Paretova genetického programování“ (PDF). Transakce IEEE na evolučním výpočtu. 13 (2): 333–349. doi:10.1109 / tevc.2008.926486.

Další čtení

externí odkazy