Prediktivní značkovací jazyk modelu - Predictive Model Markup Language
The Prediktivní značkovací jazyk modelu (PMML) je XML -na základě prediktivní model výměnný formát koncipovaný Dr. Robert Lee Grossman, pak ředitel Národní centrum pro dolování dat na University of Illinois v Chicagu. PMML poskytuje analytickým aplikacím způsob, jak je popsat a vyměnit prediktivní modely produkovaný dolování dat a strojové učení algoritmy. Podporuje běžné modely jako logistická regrese a další dopředné neuronové sítě. Verze 0.9 byla zveřejněna v roce 1998.[1] Následující verze byly vyvinuty společností Data Mining Group.[2]
Protože PMML je standard založený na XML, specifikace má formu Schéma XML. Samotný PMML je vyspělý standard s více než 30 organizacemi, které mají ohlášené produkty podporující PMML.[3]
Součásti PMML
Soubor PMML lze popsat následujícími komponentami:[4][5]
- Záhlaví: obsahuje obecné informace o dokumentu PMML, například informace o autorských právech k modelu, jeho popis a informace o aplikaci použité ke generování modelu, například název a verzi. Obsahuje také atribut pro časové razítko, kterým lze určit datum vytvoření modelu.
- Datový slovník: obsahuje definice všech možných polí použitých modelem. Zde je pole definováno jako spojité, kategorické nebo pořadové (atribut optype). V závislosti na této definici jsou poté definovány příslušné rozsahy hodnot a také datový typ (například řetězec nebo dvojitý).
- Transformace dat: transformace umožňují mapování uživatelských dat do více žádoucí formy, kterou může model těžby použít. PMML definuje několik druhů jednoduchých transformací dat.
- Normalizace: namapujte hodnoty na čísla, vstup může být spojitý nebo diskrétní.
- Diskretizace: mapujte spojité hodnoty na diskrétní hodnoty.
- Mapování hodnot: mapování diskrétních hodnot na diskrétní hodnoty.
- Funkce (vlastní a integrované): odvození hodnoty použitím funkce na jeden nebo více parametrů.
- Agregace: používá se k shrnutí nebo shromáždění skupin hodnot.
- Modelka: obsahuje definici modelu dolování dat. Např. Vícevrstvý dopředná neuronová síť je v PMML reprezentován prvkem „NeuralNetwork“, který obsahuje atributy jako:
- Název modelu (atribut modelName)
- Název funkce (atribut functionName)
- Název algoritmu (atribut algorithmName)
- Aktivační funkce (atribut activationFunction)
- Počet vrstev (atribut numberOfLayers)
- Za těmito informacemi následují tři druhy neuronových vrstev, které specifikují architekturu modelu neuronové sítě, který je v dokumentu PMML zastoupen. Tyto atributy jsou NeuralInputs, NeuralLayer a NeuralOutputs. Kromě neuronových sítí umožňuje PMML reprezentaci mnoha dalších typů modelů včetně podporovat vektorové stroje, pravidla přidružení, Naivní Bayesův klasifikátor shlukovací modely, textové modely, rozhodovací stromy a jiné regresní modely.
- Těžařské schéma: seznam všech polí použitých v modelu. Může to být podmnožina polí definovaných v datovém slovníku. Obsahuje konkrétní informace o každém poli, například:
- Název (název atributu): musí odkazovat na pole v datovém slovníku
- Typ použití (atribut usageType): definuje způsob, jakým má být pole použito v modelu. Typické hodnoty jsou: aktivní, předpokládané a doplňkové. Předpovězená pole jsou pole, jejichž hodnoty předpovídá model.
- Odlehlé zacházení (odlehlé hodnoty atributů): definuje odlehlé zacházení, které se má použít. V PMML lze s odlehlými hodnotami zacházet jako s chybějícími hodnotami, jako s extrémními hodnotami (na základě definice vysokých a nízkých hodnot pro konkrétní pole) nebo jako takové.
- Zásady nahrazení chybějící hodnoty (atribut missingValueReplacement): pokud je tento atribut zadán, pak je chybějící hodnota automaticky nahrazena danými hodnotami.
- Léčba chybějící hodnoty (atribut missingValueTreatment): označuje, jak byla odvozena náhrada chybějící hodnoty (např. Jako hodnota, průměr nebo medián).
- Cíle: umožňuje následné zpracování předpokládané hodnoty ve formátu změny měřítka, pokud je výstup modelu spojitý. Cíle lze také použít pro úkoly klasifikace. V tomto případě atribut priorProbability určuje výchozí pravděpodobnost pro příslušnou cílovou kategorii. Používá se, pokud samotná predikční logika nepřinesla výsledek. K tomu může dojít, například pokud chybí vstupní hodnota a neexistuje žádná jiná metoda pro ošetření chybějících hodnot.
- Výstup: tento prvek lze použít k pojmenování všech požadovaných výstupních polí očekávaných od modelu. Jedná se o vlastnosti predikovaného pole, a tak jsou obvykle i samotná predikovaná hodnota, pravděpodobnost, afinita klastru (u modelů s klastrováním), standardní chyba atd. Poslední vydání PMML, PMML 4.1, rozšířené Výstup umožnit generické následné zpracování výstupů modelu. V PMML 4.1 byly všechny vestavěné a vlastní funkce, které byly původně k dispozici pouze pro předběžné zpracování, k dispozici také pro následné zpracování.
PMML 4.0, 4.1, 4.2 a 4.3
PMML 4.0 byla vydána 16. června 2009.[6][7][8]
Příklady nových funkcí:
- Vylepšené možnosti předběžného zpracování: Mezi doplňky integrovaných funkcí patří řada Booleovský operace a Jestliže pak jinak funkce.
- Časové řady Modely: Nová exponenciální Vyhlazení modely; také umístit držáky pro ARIMA, Rozklad sezónních trendů, a Odhad spektrální hustoty, které budou v blízké budoucnosti podporovány.
- Vysvětlení modelu: Uložení vyhodnocení a měření výkonu modelu do samotného souboru PMML.
- Více modelů: Schopnosti kompozice modelu, souborů a segmentace (např. Kombinace regrese a rozhodovací stromy).
- Rozšíření existujících prvků: přidání klasifikace více tříd pro Podporujte vektorové stroje, vylepšené zastoupení pro Pravidla přidružení a přidání Coxovy regresní modely.
PMML 4.1 byla vydána 31. prosince 2011.[9][10]
Zahrnuty nové funkce:
- Nové prvky modelu pro reprezentaci Scorecards, k-Nearest Neighbors (KNN ) a základní modely.
- Zjednodušení více modelů. V PMML 4.1 se stejný prvek používá k reprezentaci segmentace modelu, kompletace a řetězení.
- Celková definice rozsahu pole a názvů polí.
- Nový atribut, který identifikuje pro každý prvek modelu, pokud je model připravený pro produkční nasazení nebo ne.
- Vylepšené možnosti následného zpracování (prostřednictvím prvku Output).
PMML 4.2 byla vydána 28. února 2014.[11][12]
Mezi nové funkce patří:
- Transformace: Nové prvky pro implementaci dolování textu
- Nové integrované funkce pro implementaci regulárních výrazů: shody, concat a replace
- Zjednodušené výstupy pro následné zpracování
- Vylepšení prvků modelu Scorecard a Naive Bayes
PMML 4.3 byla vydána 23. srpna 2016.[13][14]
Mezi nové funkce patří:
- Nové typy modelů:
- Gaussův proces
- Bayesian Network
- Nové integrované funkce
- Vysvětlení použití
- Vylepšení dokumentace
Historie vydání
Verze | Datum vydání |
---|---|
Verze 0.7 | Červenec 1997 |
Verze 0.9 | Červenec 1998 |
Verze 1.0 | Srpna 1999 |
Verze 1.1 | Srpna 2000 |
Verze 2.0 | Srpna 2001 |
Verze 2.1 | Březen 2003 |
Verze 3.0 | Říjen 2004 |
Verze 3.1 | Prosinec 2005 |
Verze 3.2 | Květen 2007 |
Verze 4.0 | Červen 2009 |
Verze 4.1 | Prosinec 2011 |
Verze 4.2 | únor 2014 |
Verze 4.2.1 | Březen 2015 |
Verze 4.3 | Srpna 2016 |
Skupina pro dolování dat
The Skupina pro dolování dat je konsorcium spravované neziskovou organizací Center for Computational Science Research, Inc., která byla založena v roce 2008.[15] Data Mining Group také vyvinula standard zvaný Přenosný formát pro analytiku nebo PFA, který je komplementární s PMML.
Reference
- ^ „Správa a těžba více prediktivních modelů pomocí značkovacího jazyka prediktivního modelování“. ResearchGate. doi:10.1016 / S0950-5849 (99) 00022-1. Citováno 2015-12-21.
- ^ „Data Mining Group“. Citováno 14. prosince 2017.
DMG je hrdým hostitelem pracovních skupin, které vyvíjejí Prediktivní značkovací jazyk modelu (PMML) a Přenosný formát pro analýzu (PFA), dva doplňkové standardy, které zjednodušují nasazení analytických modelů.
- ^ "PMML Powered". Skupina pro dolování dat. Citováno 14. prosince 2017.
- ^ A. Guazzelli, M. Zeller, W. Chen a G. Williams. PMML: Otevřený standard pro sdílení modelů. Časopis R., Díl 1/1, květen 2009.
- ^ A. Guazzelli, W. Lin, T. Jena (2010). PMML v akci (2. vydání): Uvolnění síly otevřených standardů pro dolování dat a prediktivní analýzu. CreateSpace.
- ^ Web skupiny Data Mining Group PMML 4.0 - Změny oproti PMML 3.2 Archivováno 2012-07-28 v Archiv. Dnes
- ^ „Web Zementis | PMML 4.0 je tady!“. Archivovány od originál dne 03.10.2011. Citováno 2009-06-17.
- ^ R. Pechter. Co je PMML a co je nového v PMML 4.0? Informační bulletin průzkumů ACM SIGKDD, Svazek 11/1, červenec 2009.
- ^ Web skupiny Data Mining Group PMML 4.1 - Změny oproti PMML 4.0
- ^ Web pro prediktivní analýzu informací | PMML 4.1 je tady!
- ^ Web skupiny Data Mining Group PMML 4.2 - Změny oproti PMML 4.1 Archivováno 2014-05-20 v Archiv. Dnes
- ^ Web pro prediktivní analýzu informací | PMML 4.2 je tady!
- ^ Web skupiny Data Mining Group PMML 4.3 - Změny oproti PMML 4.2.1
- ^ Web produktu Predictive Model Markup Language Projektová činnost
- ^ „2008 EO 990“. Citováno 16. října 2014.
externí odkazy
- Předběžné zpracování dat v PMML a ADAPA - základ
- Video z prezentace PMML Dr. Alexe Guazzelliho pro ACM Data Mining Group (hostitelem LinkedIn)
- Specifikace PMML 3.2
- Specifikace PMML 4.0
- Specifikace PMML 4.1
- Specifikace PMML 4.2.1
- Specifikace PMML 4.3
- Reprezentace prediktivních řešení v PMML: Přechod od nezpracovaných dat k předpovědím - Článek zveřejněný na webu IBM developerWorks.
- Prediktivní analytika ve zdravotnictví: Význam otevřených standardů - Článek zveřejněný na webu IBM developerWorks.