Koncept drift - Concept drift

v prediktivní analytika a strojové učení, koncept drift znamená, že statistické vlastnosti cílové proměnné, které se model snaží předpovědět, se v průběhu času mění nepředvídanými způsoby. To způsobuje problémy, protože předpovědi se postupem času snižují.

Termín pojem odkazuje na množství, které se má předvídat. Obecněji může kromě cílového konceptu odkazovat také na jiné zajímavé jevy, jako je vstup, ale v kontextu konceptu drift se termín běžně vztahuje na cílovou proměnnou.

Příklady

V detekce podvodů aplikací může být cílový koncept a binární atribut FRAUDULENT s hodnotami „ano“ nebo „ne“, který označuje, zda je daná transakce podvodná. Nebo v předpověď počasí aplikace, může existovat několik cílových konceptů, jako je TEPLOTA, TLAK a VLHKOST.

Chování zákazníků v online obchod se může časem změnit. Například pokud je třeba předvídat týdenní prodej zboží, a prediktivní model byl vyvinut, který funguje uspokojivě. Model může využívat vstupy, jako je například částka utracená za peníze reklamní, propagační akce a další metriky, které mohou ovlivnit prodej. Je pravděpodobné, že model bude postupem času stále méně přesný - jedná se o koncepční posun. V aplikaci pro prodej zboží může být jedním z důvodů posunu konceptu sezónnost, což znamená, že se nákupní chování mění sezónně. Možná bude v zimních prázdnin vyšší prodej než například v létě.

Možné prostředky nápravy

Aby se zabránilo zhoršení v předpověď přesnost díky koncepčnímu posunu, lze přijmout aktivní i pasivní řešení. Aktivní řešení spoléhají na spouštěcí mechanismy, např. Testy detekce změn (Basseville a Nikiforov 1993; Alippi a Roveri, 2007), aby explicitně detekovali posun konceptu jako změnu statistik procesu generování dat. Ve stacionárních podmínkách lze k vylepšení modelu integrovat všechny dostupné nové informace. Jinak, když je detekován posun konceptu, aktuální model již není aktuální a musí být nahrazen novým, aby byla zachována přesnost predikce (Gama et al., 2004; Alippi et al., 2011). Naopak v pasivních řešeních je model průběžně aktualizován, např. Rekvalifikací modelu na naposledy pozorovaných vzorcích (Widmer a Kubat, 1996) nebo vynucením souboru klasifikátorů (Elwell a Polikar 2011).

Kontextové informace, pokud jsou k dispozici, lze použít k lepšímu vysvětlení příčin posunu konceptu: například v aplikaci pro predikci prodeje může být posun konceptu kompenzován přidáním informací o sezóně do modelu. Poskytnutím informací o ročním období se pravděpodobně sníží míra zhoršení vašeho modelu, je nepravděpodobné, že by byl zcela vyloučen drift konceptu. Je to proto, že skutečné nákupní chování nenasleduje žádné statické, konečný model. Kdykoli mohou nastat nové faktory, které ovlivňují nákupní chování, vliv známých faktorů nebo jejich interakce se mohou změnit.

U driftu konceptu se nelze vyhnout pro složité jevy, které nejsou řízeny pevnými přírodní zákony. Všechny procesy, které vznikají z lidské činnosti, jako např socioekonomické procesy a biologické procesy pravděpodobně dojde k posunu konceptu. Proto je nezbytná pravidelná rekvalifikace jakéhokoli modelu, známá také jako osvěžující.

Software

  • RapidMiner: Dříve Ještě další výukové prostředí (YALE): bezplatný open-source software pro zjišťování znalostí, dolování dat a strojové učení, který také obsahuje dolování datových proudů, učení časově proměnných konceptů a koncept sledování driftování. Používá se v kombinaci s jeho pluginem pro těžbu datových proudů (dříve concept drift plugin).
  • EDDM (Metoda včasné detekce driftu ): bezplatná open-source implementace metod detekce driftu v Weka.
  • MOA (Massive Online Analysis): bezplatný open-source software specifický pro těžbu datových proudů s koncepčním driftem. Obsahuje metodu předběžného vyhodnocení, metody driftu konceptu EDDM, čtečku skutečných datových sad ARFF a generátory umělých proudů jako koncepty SEA, STAGGER, rotující nadrovinu, náhodný strom a funkce založené na náhodném poloměru. MOA podporuje obousměrnou interakci s Weka.

Datové sady

Nemovitý

  • Úložiště datových proudů USP, 27 datových sad streamů v reálném světě s koncepčním driftem sestavených Souzou a kol. (2020). Přístup
  • Letecká linka, přibližně 116 milionů záznamů o příletu a odletu (vyčištěných a tříděných) sestavených E. Ikonomovskou. Odkaz: Soutěž Data Expo 2009 [1]. Přístup
  • Chess.com (online hry) a Lucembursko (sociální průzkum) datové soubory sestavené I. Zliobaitem. Přístup
  • ECUE spam 2 datové sady, z nichž každý se skládá z více než 10 000 e-mailů shromážděných během přibližně 2 let jednotlivcem. Přístup z webové stránky S.J.Delany
  • Elec2, poptávka po elektřině, 2 třídy, 45 312 instancí. Odkaz: M. Harries, srovnávací hodnocení Splice-2: Cena elektřiny, technická zpráva, The University of South Wales, 1999. Přístup z webové stránky J.Gama. Komentář k použitelnosti.
  • Soutěž PAKDD'09 data představují úkol hodnocení úvěru. Shromažďuje se po dobu pěti let. Skutečné štítky jsou bohužel vydávány pouze pro první část dat. Přístup
  • Stream senzoru a Proud napájecího zdroje datové sady jsou k dispozici v úložišti Stream Data Mining úložiště X. Zhu. Přístup
  • SMEAR je srovnávací datový proud se spoustou chybějících hodnot. Údaje o pozorování prostředí za 7 let. Předpověď oblačnosti. Přístup
  • Dolování textu, sbírka dolování textu datové sady s koncepčním driftem, udržované I. Katakisem. Přístup
  • Datová sada driftu pole plynového senzoru, sbírka 13 910 měření od 16 chemických senzorů použitých pro kompenzaci driftu při diskriminační úloze 6 plynů při různých úrovních koncentrací. Přístup

jiný

  • Soutěž KDD'99 data obsahují simulované vniknutí do prostředí vojenské sítě. Často se používá jako měřítko pro vyhodnocení posunu konceptu manipulace. Přístup

Syntetický

  • Měření latence extrémního ověřeníSouza, V.M.A .; Silva, D.F .; Gama, J .; Batista, G.E.A.P.A. : Klasifikace toku dat vedená klastrováním v nestacionárních prostředích a latence extrémního ověření. SIAM International Conference on Data Mining (SDM), str. 873–881, 2015. Přístup z nestacionárních prostředí - archiv.
  • Datové sady sine, line, Plane, Circle a Boolean„LLMinku, APWhite, X.Yao, The Impact of Diversity on On-line Ensemble Learning in the Presence of Concept Drift, IEEE Transactions on Knowledge and Data Engineering, vol.22, no.5, pp. 730–742, 2010. Přístup z webové stránky L.Minku.
  • Pojmy SEA, N.W.Street, Y.Kim, Algoritmus streamovacího souboru (SEA) pro klasifikaci ve velkém měřítku, KDD'01: Sborník ze sedmé mezinárodní konference ACM SIGKDD o objevování znalostí a dolování dat, 2001. Přístup z webové stránky J.Gama.
  • STAGGER, J.C. Schlimmer, R.H. Granger, Inkrementální učení od Noisy Data, Mach. Learn., Sv. 1, č. 3, 1986.
  • Smíšený, J.Gama, P.Medas, G.Castillo, P.Rodrigues, Učení s detekcí driftu, 2004.

Rámečky generování dat

  • LLMinku, APWhite, X.Yao, The Impact of Diversity on On-line Ensemble Learning in the Presence of Concept Drift, IEEE Transactions on Knowledge and Data Engineering, vol.22, no.5, pp. 730–742, 2010 . Stažení z webové stránky L.Minku.
  • Lindstrom P, SJ Delany & B MacNamee (2008) Autopilot: Simulation Changing Concepts in Real Data In: Proceedings of the 19. Irish Conference on Artificial Intelligence & Cognitive Science, D Bridge, K Brown, B O'Sullivan & H Sorensen (eds. ) p272-263 PDF
  • Narasimhamurthy A., L.I. Kuncheva, Rámec pro generování dat pro simulaci měnícího se prostředí, Proc. IASTED, Artificial Intelligence and Applications, Innsbruck, Rakousko, 2007, 384–389 PDF Kód

Projekty

  • USOUDIT: Platforma pro výpočetní inteligenci pro vývoj a robustní prediktivní systémy (2010–2014), Bournemouth University (UK), Evonik Industries (Německo), Research and Engineering Center (Polsko)
  • HaCDAIS: Zpracování konceptu Drift v adaptivních informačních systémech (2008–2012), Eindhoven University of Technology (Nizozemsko)
  • KDUS: Objevování znalostí ze všudypřítomných proudů, INESC Porto a Laboratoř umělé inteligence a podpora rozhodování (Portugalsko)
  • ADEPT: Adaptive Dynamic Ensemble Prediction Techniques, University of Manchester (UK), University of Bristol (UK)
  • ALADIN: autonomní učitelé pro decentralizované datové a informační sítě (2005–2010)

Srovnávací hodnoty

  • NAB: Numenta Anomaly Benchmark, měřítko pro vyhodnocení algoritmů pro detekci anomálií ve streamovacích aplikacích v reálném čase. (2014–2018)

Setkání

  • 2014
    • [2] Zvláštní zasedání na téma „Koncept Drift, přizpůsobení domény a učení v dynamických prostředích“ @IEEE IJCNN 2014
  • 2013
    • RealStream Real-World Challenges for Data Stream Mining Workshop-Discussion at the ECML PKDD 2013, Praha, Česká republika.
    • LEAPS 2013 1. mezinárodní workshop o učení strategií a zpracování dAta v nestacionárních prostředích
  • 2011
    • LEE 2011 Zvláštní zasedání o učení v měnícím se prostředí a jeho aplikace na problémy v reálném světě na ICMLA'11
    • HaCDAIS 2011 2. mezinárodní seminář o manipulaci s koncepčním driftem v adaptivních informačních systémech
    • ICAIS 2011 Sledujte přírůstkové učení
    • IJCNN 2011 Zvláštní zasedání o koncepčním driftu a učení se dynamickému prostředí
    • CIDUE 2011 Sympózium o výpočetní inteligenci v dynamickém a nejistém prostředí
  • 2010
    • HaCDAIS 2010 Mezinárodní workshop o řešení posunu konceptu v adaptivních informačních systémech: důležitost, výzvy a řešení
    • ICMLA10 Zvláštní zasedání o dynamickém učení v nestacionárních prostředích
    • SAC 2010 Sledování datových toků na ACM Symposium on Applied Computing
    • SensorKDD 2010 Mezinárodní workshop o získávání znalostí z dat senzorů
    • StreamKDD 2010 Nové techniky dolování vzorů datového proudu
    • Concept Drift and Learning in Nonstationary Environment ve společnosti Světový kongres IEEE o výpočetní inteligenci
    • MLMDS’2010 Zvláštní zasedání o metodách strojového učení pro datové toky na 10. mezinárodní konferenci o inteligentním designu a aplikacích, ISDA’10

Bibliografické odkazy

Bylo publikováno mnoho článků popisujících algoritmy pro detekci koncepčního driftu. Zde jsou pouze recenze, průzkumy a přehledy:

Recenze

  • Souza, V. M. A., Reis, D. M., Maletzke, A. G., Batista, G. E. A. P. A. (2020). Výzvy v Benchmarkingu Stream Algorithms učení s reálnými daty, dolováním dat a získáváním znalostí, 1--54. https://link.springer.com/article/10.1007/s10618-020-00698-5
  • Krawczyk, B., Minku, L.L., Gama, J., Stefanowski, J., Wozniak, M. (2017). „Ensemble Learning for Data Stream Analysis: a survey“, Information Fusion, sv. 37, s. 132–156, Přístup
  • Dal Pozzolo, A., Boracchi, G., Caelen, O., Alippi, C., & Bontempi, G. (2015). Detekce podvodů s kreditními kartami a přizpůsobení konceptu driftu se zpožděnými dohlíženými informacemi. V roce 2015 Mezinárodní společná konference o neuronových sítích (IJCNN) (str. 1–8). IEEE. PDF
  • C.Alippi, "Učení v nestacionárních a vyvíjejících se prostředích", kapitola v Inteligence pro vestavěné systémy. Springer, 2014, 283pp, ISBN  978-3-319-05278-6.
  • Gama, J., Žliobaitė, I., Bifet, A., Pechenizkiy, M. a Bouchachia, A., 2014. Průzkum adaptace konceptu drift. ACM výpočetní průzkumy (CSUR), 46(4), s. 44. PDF
  • C.Alippi, R.Polikar, Special Issue on Learning in Nonstationary and Evolving Environments, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, sv. 25, č. 1. ledna 2014
  • Dal Pozzolo, A., Caelen, O., Le Borgne, Y. A., Waterschoot, S., & Bontempi, G. (2014). Získané lekce detekce podvodů s kreditními kartami z pohledu odborníka. Expertní systémy s aplikacemi, 41 (10), 4915–4928. PDF
  • Zliobaite, I., Učení pod konceptem Drift: přehled. Technická zpráva. 2009, Fakulta matematiky a informatiky, Vilniuská univerzita: Vilnius, Litva. PDF[trvalý mrtvý odkaz ]
  • Jiang, J., Průzkum literatury o doménové adaptaci statistických klasifikátorů. 2008. PDF
  • Kuncheva L.I. Soubory klasifikátoru pro detekci změny konceptu ve streamovaných datech: Přehled a perspektivy, Proc. 2. workshop SUEMA 2008 (ECAI 2008), Patras, Řecko, 2008, 5–10, PDF
  • Gaber, M, M., Zaslavsky, A. a Krishnaswamy, S., Data Mining Data Streams: A Review, v ACM SIGMOD Record, sv. 34, č. 1, červen 2005, ISSN  0163-5808
  • Kuncheva LI, Classifier ensembles for měnící se prostředí, Proceedings 5th International Workshop on Multiple Classifier Systems, MCS2004, Cagliari, Itálie, F. Roli, J. Kittler a T. Windeatt (Eds.), Lecture Notes in Computer Science, Vol 3077, 2004, 1–15, PDF.
  • Tsymbal, A., Problém koncepčního driftu: Definice a související práce. Technická zpráva. 2004, Katedra výpočetní techniky, Trinity College: Dublin, Irsko. PDF

Viz také