Mezioborový standardní proces pro dolování dat - Cross-industry standard process for data mining
Mezioborový standardní proces pro dolování dat, známý jako CRISP-DM,[1] je otevřený standard procesní model, který popisuje běžné přístupy používané dolování dat Odborníci. Je nejpoužívanější analytika Modelka.[2]
V roce 2015 IBM vydala novou metodiku nazvanou Jednotná metoda analytických řešení pro dolování dat / prediktivní analýzu[3][4] (také známý jako ASUM-DM), který vylepšuje a rozšiřuje CRISP-DM.
Dějiny
CRISP-DM byl vytvořen v roce 1996 a stal se projektem Evropské unie v rámci EU ESPRIT iniciativa financování v roce 1997. Projekt vedlo pět společností: Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation a OHRA pojišťovna.
Toto klíčové konsorcium přineslo projektu různé zkušenosti: ISL, později získané a sloučené do SPSS. Počítačový gigant NCR Corporation vyrobil Teradata datový sklad a vlastní software pro dolování dat. Daimler-Benz měl významný tým pro dolování dat. OHRA teprve začíná zkoumat potenciální využití dolování dat.
První verze metodiky byla představena na 4. workshopu CRISP-DM SIG v Bruselu v březnu 1999,[5] a později v tomto roce publikován jako podrobný průvodce těžbou dat.[6]
V letech 2006 až 2008 byl vytvořen CRISP-DM 2.0 SIG a diskutovalo se o aktualizaci procesního modelu CRISP-DM.[7] Současný stav těchto snah není znám. Původní web crisp-dm.org uvedený v recenzích,[8][9] a web CRISP-DM 2.0 SIG[7] oba již nejsou aktivní.
Zatímco mnoho odborníků na těžbu dat jiných než IBM používá CRISP-DM,[10][11][12] IBM je primární společností, která aktuálně používá procesní model CRISP-DM. Zpřístupňuje některé staré dokumenty CRISP-DM ke stažení[6] a začlenil to do své Modelář SPSS produkt.
Na základě současného výzkumu je CRISP-DM nejpoužívanější formou modelu dolování dat kvůli jeho různým výhodám, které vyřešily stávající problémy v odvětví dolování dat. Některé z nevýhod tohoto modelu je, že nevykonává činnosti řízení projektu. Skutečnost, která stojí za úspěchem CRISP-DM, je, že je průmyslově, nástrojově a aplikačně neutrální.[13]
Hlavní fáze
CRISP-DM přerušuje proces dolování dat do šesti hlavních fází:[14]
- Obchodní porozumění
- Porozumění datům
- Příprava dat
- Modelování
- Hodnocení
- Rozvinutí
Pořadí fází není striktní a pohybuje se tam a zpět mezi různými fázemi, protože je vždy nutné. Šipky v procesním diagramu označují nejdůležitější a nejčastější závislosti mezi fázemi. Vnější kruh v diagramu symbolizuje cyklickou povahu samotného dolování dat. Proces dolování dat pokračuje po nasazení řešení. Poznatky získané během procesu mohou vyvolat nové, často více zaměřené obchodní otázky a následné procesy dolování dat budou těžit ze zkušeností předchozích.
Ankety
Průzkumy provedené na stejném webu (KDNuggets) v letech 2002, 2004, 2007 a 2014 ukazují, že se jednalo o přední metodiku používanou těžebními datovými průmysly, kteří se rozhodli odpovědět na průzkum.[10][11][12][15] Jediný další přístup k dolování dat pojmenovaný v těchto anketách byl SEMMA. Institut SAS však jasně uvádí, že SEMMA není metodika dolování dat, ale spíše „logická organizace funkční sady nástrojů SAS Enterprise Miner“. Revize a kritika modelů procesu dolování dat v roce 2009 nazvala CRISP-DM „de facto standardem pro rozvoj projektů dolování dat a zjišťování znalostí“.[Citace je zapotřebí ] Mezi další recenze CRISP-DM a modelů procesu dolování dat patří recenze Kurgana a Musileka z roku 2006,[8] a Azevedo a Santos '2008 srovnání CRISP-DM a SEMMA.[9] Úsilí o aktualizaci metodiky bylo zahájeno v roce 2006, ale k 30. červnu 2015[Aktualizace] nevedlo k nové verzi a „zvláštní zájmová skupina“ (SIG), která je spolu s webem odpovědná, již dlouho zmizela (viz Historie CRISP-DM ).
Reference
- ^ Shearer C., Model CRISP-DM: nový plán pro dolování dat„J Data Warehousing (2000); 5: 13—22.
- ^ Co IT potřebuje vědět o procesu dolování dat Publikováno Forbes, 29. července 2015, vyvoláno 24. června 2018
- ^ Viděli jste ASUM-DM? „Autor: Jason Haffar, 16. října 2015, SPSS Predictive Analytics, IBM Archivováno 8. března 2016 v Wayback Machine
- ^ Unifikovaná metoda analytických řešení - implementace s agilními principy Publikováno společností IBM, 1. března 2016, vyvoláno 5. října 2018
- ^ Pete Chapman (1999); Uživatelská příručka CRISP-DM.
- ^ A b Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer a Rüdiger Wirth (2000); CRISP-DM 1.0 Podrobní průvodci těžbou dat.
- ^ A b Colin Shearer (2006); První workshop CRISP-DM 2.0 se konal
- ^ A b Lukasz Kurgan a Petr Musilek (2006); Průzkum modelů objevování znalostí a dolování dat. Recenze znalostního inženýrství. Svazek 21, číslo 1, březen 2006, s. 1–24, Cambridge University Press, New York, NY, USA doi: 10,1017 / S0269888906000737.
- ^ A b Azevedo, A. a Santos, M. F. (2008); KDD, SEMMA a CRISP-DM: paralelní přehled. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
- ^ A b Gregory Piatetsky-Shapiro (2002); Anketa metodologie KDnuggets
- ^ A b Gregory Piatetsky-Shapiro (2004); Anketa metodologie KDnuggets
- ^ A b Gregory Piatetsky-Shapiro (2007); Anketa metodologie KDnuggets
- ^ Mariscal, G., Marban, O., Fernandez, C. „Průzkum dolování dat a modelů a metod objevování znalostí“. Recenze znalostního inženýrství. doi:10.1017 / S0269888910000032.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Harper, Gavin; Stephen D. Pickett (srpen 2006). "Metody těžby dat HTS". Objev drog dnes. 11 (15–16): 694–699. doi:10.1016 / j.drudis.2006.06.006. PMID 16846796.
- ^ Gregory Piatetsky-Shapiro (2014); Anketa metodologie KDnuggets