Symbolická regrese - Symbolic regression
Symbolická regrese (SR) je typ regresní analýza který prohledává prostor matematických výrazů a hledá model, který nejlépe vyhovuje dané datové sadě, a to jak z hlediska přesnosti, tak jednoduchosti. Jako výchozí bod algoritmu není poskytován žádný konkrétní model. Místo toho jsou počáteční výrazy tvořeny náhodným kombinováním matematických stavebních bloků, jako je matematické operátory, analytické funkce, konstanty, a stavové proměnné. Podskupinu těchto primitiv obvykle určí osoba, která je obsluhuje, ale není to požadavek této techniky. Problém symbolické regrese pro matematické funkce byl řešen řadou metod, včetně rekombinace rovnic nejčastěji používajících genetické programování[1], stejně jako novější metody využívající Bayesovské metody [2] a fyzika inspirována AI.[3] Druhá neklasická alternativní metoda k SR se nazývá Původce univerzálních funkcí (UFO), který má jiný mechanismus, vyhledávací prostor a strategii budování.[4]
Nevyžadováním specifického modelu, který má být specifikován, není symbolická regrese ovlivněna lidskou zaujatostí nebo neznámými mezerami znalost domény. Pokouší se odhalit vnitřní vztahy datové sady tím, že nechá vzory v datech sama odhalit příslušné modely, spíše než vnucuje strukturu modelu, která je z lidského hlediska považována za matematicky přijatelnou. The fitness funkce který řídí vývoj modelů, bere v úvahu nejen chybové metriky (aby modely přesně předpovídaly data), ale také speciální opatření ke složitosti,[5] čímž je zajištěno, že výsledné modely odhalí podkladovou strukturu dat způsobem, který je srozumitelný z lidské perspektivy. To usnadňuje uvažování a upřednostňuje pravděpodobnost získání přehledu o systému generujícím data.
Rozdíl od klasické regrese
Zatímco konvenční regresní techniky se snaží optimalizovat parametry pro předem specifikovanou strukturu modelu, symbolická regrese se vyhne zavedení předchozích předpokladů a místo toho odvodí model z dat. Jinými slovy, pokouší se objevit jak modelové struktury, tak parametry modelu.
Tento přístup má tu nevýhodu, že má mnohem větší prostor pro vyhledávání, protože nejen prostor pro vyhledávání v symbolické regrese je nekonečný, ale existuje nekonečné množství modelů, které se perfektně vejdou do konečné sady dat (za předpokladu, že složitost modelu t uměle omezeno). To znamená, že nalezení vhodného modelu a parametrizace bude pravděpodobně trvat algoritmus symbolické regrese déle než tradiční regresní techniky. To lze zmírnit omezením sady stavebních bloků poskytovaných algoritmu na základě stávajících znalostí systému, který data vytvořil; ale nakonec je použití symbolické regrese rozhodnutí, které je třeba vyvážit s tím, kolik toho je o základním systému známo.
Tato charakteristika symbolické regrese má nicméně i své výhody: protože evoluční algoritmus vyžaduje rozmanitost, aby bylo možné efektivně prozkoumat vyhledávací prostor, konečným výsledkem bude pravděpodobně výběr modelů s vysokým skóre (a jejich odpovídající sada parametrů). Zkoumání této kolekce by mohlo poskytnout lepší vhled do základního procesu a umožňuje uživateli identifikovat aproximaci, která lépe odpovídá jejich potřebám z hlediska přesnosti a jednoduchosti.
Viz také
- Eureqa, symbolický regresní engine
- Heuristická laboratoř, softwarové prostředí pro heuristické a evoluční algoritmy, včetně symbolické regrese
- Výraz v uzavřené formě § Převod z numerických forem
- Genetické programování[3]
- Programování genového výrazu
- Kolmogorovova složitost
- Matematická optimalizace
- Regresní analýza
- Reverzní matematika
- Původce univerzálních funkcí
Reference
- ^ Michael Schmidt; Hod Lipson (2009). „Destilace přírodních zákonů volné formy z experimentálních dat“. Věda. Americká asociace pro rozvoj vědy. 324 (5923): 81–85. Bibcode:2009Sci ... 324 ... 81S. CiteSeerX 10.1.1.308.2245. doi:10.1126 / science.1165893. PMID 19342586.
- ^ Ying Jin; Weilin Fu; Jian Kang; Jiadong Guo; Jian Guo (2019). "Bayesiánská symbolická regrese". arXiv:1910.08892 [stat.ME ].
- ^ A b Silviu-Marian Udrescu; Max Tegmark (2020). „AI Feynman: Fyzikálně inspirovaná metoda symbolické regrese“. Věda_Advance. Americká asociace pro rozvoj vědy. 6 (16): eaay2631. doi:10.1126 / sciadv.aay2631. PMC 7159912. PMID 32426452.
- ^ Ali R. Al-Roomi; Mohamed E. El-Hawary (2020). "Původce univerzálních funkcí". Applied Soft Computing. Elsevier B.V. 94: 106417. doi:10.1016 / j.asoc.2020.106417. ISSN 1568-4946.
- ^ Ekaterina J. Vladislavleva; Guido F. Smits; Dick Den Hertog (2009). „Řád nelinearity jako měřítko složitosti pro modely generované symbolickou regresí pomocí Paretova genetického programování“ (PDF). Transakce IEEE na evolučním výpočtu. 13 (2): 333–349. doi:10.1109 / tevc.2008.926486.
Další čtení
- Mark J. Willis; Hugo G. Hiden; Ben McKay; Gary A. Montague; Peter Marenbach (1997). „Genetické programování: Úvod a přehled aplikací“ (PDF). Publikace konference IEE. IEE. 314–319.
- Wouter Minnebo; Sean Stijven (2011). „Kapitola 4: Symbolická regrese“ (PDF). Posílení výpočetní kapacity znalostí pomocí variabilního výběru (Magisterská práce). University of Antwerp.
- John R. Koza; Martin A. Keane; James P. Rice (1993). „Zvýšení výkonu strojového učení pomocí automatického zjišťování pomocných funkcí, jak je aplikováno na problém symbolické identifikace systému“ (PDF). IEEE International Conference on Neural Networks. San Francisco: IEEE. 191–198.
externí odkazy
- Ivan Zelinka (2004). „Symbolická regrese - přehled“.
- Hansueli Gerber (1998). „Jednoduchá symbolická regrese pomocí genetického programování“. (Java applet) - aproximuje funkci vyvíjením kombinací jednoduchých aritmetických operátorů pomocí algoritmů vyvinutých společností John Koza.
- Katya Vladislavleva. „Symbolic Regression: Function Discovery & More“. Archivovány od originál dne 18. 12. 2014.
- RGP, rámec pro genetické programování (GP) v R který podporuje symbolickou regresi
- GPTIPS Platforma pro genetické programování a těžbu symbolických dat pro MATLAB
- dcgp, sada nástrojů se symbolickou regresí typu open source.
- Glyph, knihovna pythonu 3 založená na deapu poskytujícím abstrakční vrstvy pro problémy symbolické regrese
- AI-Feynman python3 + pytorch kód pro Fyzikálně inspirovanou metodu symbolické regrese.
- TuringBot, symbolický regresní software založený na simulovaném žíhání.