Těžba datového proudu - Data stream mining
Těžba datového proudu (také známý jako stream učení) je proces extrakce znalostních struktur z nepřetržitých a rychlých datových záznamů. A datový tok je seřazená posloupnost instancí, které lze v mnoha aplikacích dolování datových proudů číst pouze jednou nebo jen několikrát za použití omezených výpočetních a úložných schopností.[1]
V mnoha aplikacích pro těžbu datových proudů je cílem předpovědět třídu nebo hodnotu nových instancí v datovém proudu vzhledem k určitým znalostem o členství ve třídě nebo hodnotám předchozích instancí v datovém proudu.[2]K automatickému učení se této predikční úlohy z označených příkladů lze použít techniky strojového učení. Koncepty z oblasti přírůstkové učení se používají k řešení strukturálních změn, online učení a požadavky v reálném čase. V mnoha aplikacích, zejména pracujících v nestacionárních prostředích, se distribuce, která je základem instancí, nebo pravidla, která jsou základem jejich značení, mohou v průběhu času měnit, tj. Cíl predikce, předpokládaná třída nebo cílová hodnota, která se má předvídat, se může změnit. přesčas.[3] Tento problém se označuje jako koncept drift. Detekce koncept drift je ústředním tématem těžby datových proudů.[4][5] Další výzvy[6] které vznikají při aplikaci strojového učení na streamovaná data zahrnují: částečně a zpožděná označená data,[7] zotavení z koncepčních driftů,[1] a časové závislosti.[8]
Mezi příklady datových toků patří počítačový síťový provoz, telefonické konverzace, transakce ATM, vyhledávání na webu a data ze senzorů. Dolování datových proudů lze považovat za podpole dolování dat, strojové učení, a objevování znalostí.
Software pro těžbu datových toků
- MOA (Massive Online Analysis): bezplatný open-source software specifický pro těžbu datových proudů s koncepčním driftem. Má několik algoritmů strojového učení (klasifikace, regrese, shlukování, systémy pro detekci odlehlých hodnot a doporučující systémy). Obsahuje také metodu předběžného vyhodnocení, metody driftu konceptu EDDM, čtečku skutečných datových sad ARFF a generátory umělých proudů jako koncepty SEA, STAGGER, rotující nadrovina, náhodný strom a funkce založené na náhodném poloměru. MOA podporuje obousměrnou interakci s Weka (strojové učení).
- scikit-multiflow: Rámec strojového učení pro multi-výstupní / multi-label a streamovaná data implementovaná v Pythonu.[9] scikit-multiflow obsahuje generátory proudu, metody učení proudu pro jeden cíl a více cílů, detektory koncepčního driftu, metody vyhodnocení a vizualizace.
- StreamDM: StreamDM je otevřený zdrojový rámec pro těžbu velkých datových proudů, který využívá Spark Streaming[10] rozšíření jádra Spark API. Jednou výhodou StreamDM ve srovnání se stávajícími rámci je, že přímo těží z rozhraní Spark Streaming API, které zpracovává většinu složitých problémů podkladových zdrojů dat, jako jsou data mimo pořadí a zotavení po selhání.
- RapidMiner: komerční software pro zjišťování znalostí, dolování dat a strojové učení, který také obsahuje dolování datových proudů, učení časově proměnných konceptů a sledování driftování (pokud se používá v kombinaci s jeho pluginem pro dolování datových proudů (dříve: Concept Drift plugin))
Události
- Mezinárodní workshop o všudypřítomné těžbě dat ve spojení s Mezinárodní společná konference o umělé inteligenci (IJCAI) v čínském Pekingu, 3. – 5. srpna 2013.
- Mezinárodní workshop o získávání znalostí ze všudypřítomných datových toků konané ve spojení s 18. evropská konference o strojovém učení (ECML) a 11. evropská konference o zásadách a praxi získávání znalostí v databázích (PKDD) ve Varšavě v Polsku v září 2007.
- ACM Symposium on Applied Computing Data Streams Track konané ve spojení s 2007 ACM Symposium on Applied Computing (SAC-2007) v Soul, Korea, v březnu 2007.
- Mezinárodní seminář IEEE o vývoji těžby a streamování dat (IWMESD 2006) se bude konat ve spojení s 2006 Mezinárodní konference IEEE o dolování dat (ICDM-2006) v Hongkong v prosinci 2006.
- Čtvrtý mezinárodní workshop o získávání znalostí z datových toků (IWKDDS) se bude konat ve spojení s 17. evropská konference o strojovém učení (ECML) a 10. evropská konference o zásadách a praxi získávání znalostí v databázích (PKDD) (ECML / PKDD-2006) v Berlín, Německo, v září 2006.
Viz také
- Koncept drift
- Dolování dat
- Sekvenční těžba
- Streamovací algoritmus
- Zpracování streamu
- Síť bezdrátových senzorů
- Lambda architektura
Knihy
- Bifet, Albert; Gavaldà, Ricard; Holmes, Geoff; Pfahringer, Bernhard (2018). Strojové učení pro datové toky s praktickými příklady v MOA. Adaptivní výpočet a strojové učení. MIT Stiskněte. str. 288. ISBN 9780262037792.
- Gama, João; Gaber, Mohamed Medhat, eds. (2007). Učení se z datových toků: Techniky zpracování v senzorových sítích. Springer. str. 244. doi:10.1007/3-540-73679-4. ISBN 9783540736783.
- Ganguly, Auroop R .; Gama, João; Omitaomu, Olufemi A .; Gaber, Mohamed M .; Vatsavai, Ranga R., eds. (2008). Zjištění znalostí z dat senzoru. Průmyslové inovace. CRC Press. str. 215. ISBN 9781420082326.
- Gama, João (2010). Zjištění znalostí z datových toků. Těžba dat a vyhledávání znalostí. Chapman a Hall. str. 255. ISBN 9781439826119.
- Lughofer, Edwin (2011). Vývoj fuzzy systémů - metodologie, pokročilé koncepce a aplikace. Studium fuzziness a soft computingu. 266. Heidelberg: Springer. str. 456. doi:10.1007/978-3-642-18087-3. ISBN 9783642180866.
- Sayed-Mouchaweh, Moamar; Lughofer, Edwin, eds. (2012). Učení v nestacionárních prostředích: metody a aplikace. New York: Springer. str. 440. CiteSeerX 10.1.1.709.437. doi:10.1007/978-1-4419-8020-5. ISBN 9781441980199.
Reference
- ^ A b Gomes, Heitor M .; Bifet, Albert; Přečtěte si, Jesse; Barddal, Jean Paul; Enembreck, Fabrício; Pfharinger, Bernhard; Holmes, Geoff; Abdessalem, Talel (01.10.2017). „Adaptivní náhodné lesy pro vyvíjející se klasifikaci datových toků“. Strojové učení. 106 (9): 1469–1495. doi:10.1007 / s10994-017-5642-8. ISSN 1573-0565.
- ^ Medhat, Mohamed; Zaslavsky; Krishnaswamy (01.06.2005). "Těžba datových proudů". Záznam ACM SIGMOD. 34 (2): 18–26. doi:10.1145/1083784.1083789. S2CID 705946.
- ^ Lemaire, Vincent; Salperwyck, Christophe; Bondu, Alexis (2015), Zimányi, Esteban; Kutsche, Ralf-Detlef (eds.), „An Survey on Supervised Classification on Data Streams“, Business Intelligence: 4. evropská letní škola, eBISS 2014, Berlín, Německo, 6. – 11. Července 2014, výukové lekce, Přednášky ve zpracování obchodních informací, Springer International Publishing, str. 88–125, doi:10.1007/978-3-319-17551-5_4, ISBN 978-3-319-17551-5
- ^ Webb, Geoffrey I .; Lee, Loong Kuan; Petitjean, François; Goethals, Bart (02.04.2017). "Porozumění konceptu Drift". arXiv:1704.00362 [cs.LG ].
- ^ Gama, João; Žliobaitė; Bifet; Pechenizkiy; Bouchachia (01.03.2014). „Průzkum o přizpůsobení koncepčního driftu“ (PDF). ACM Computing Surveys. 46 (4): 1–37. doi:10.1145/2523813. S2CID 207208264.
- ^ Gomes, Heitor Murilo; Číst; Bifet; Barddal; Gama (2019-11-26). Msgstr "Strojové učení pro streamování dat". Informační bulletin průzkumů ACM SIGKDD. 21 (2): 6–22. doi:10.1145/3373464.3373470. S2CID 208607941.
- ^ Grzenda, Maciej; Gomes, Heitor Murilo; Bifet, Albert (16. 11. 2019). „Zpožděné vyhodnocení označení pro datové toky“. Těžba dat a vyhledávání znalostí. doi:10.1007 / s10618-019-00654-r. ISSN 1573-756X.
- ^ Žliobaitė, Indrė; Bifet, Albert; Přečtěte si, Jesse; Pfahringer, Bernhard; Holmes, Geoff (01.03.2015). „Metody hodnocení a teorie rozhodování pro klasifikaci streamovaných dat s časovou závislostí“. Strojové učení. 98 (3): 455–482. doi:10.1007 / s10994-014-5441-4. ISSN 1573-0565.
- ^ Montiel, Jacob; Přečtěte si, Jesse; Bifet, Albert; Abdessalem, Talel (2018). „Scikit-Multiflow: Vícevýstupový streamovací rámec“. Journal of Machine Learning Research. 19 (72): 1–5. arXiv:1807.04662. Bibcode:2018arXiv180704662M. ISSN 1533-7928.
- ^ Zaharia, Matei; Das, Tathagata; Li, Haoyuan; Hunter, Timothy; Shenker, Scott; Stoica, Ion (2013). „Diskretizované streamy“. Sborník z dvacátého čtvrtého sympózia ACM o principech operačních systémů - SOSP '13. New York, New York, USA: ACM Press: 423–438. doi:10.1145/2517349.2522737. ISBN 978-1-4503-2388-8.