Časté objevování vzorů - Frequent pattern discovery
Časté objevování vzorů (nebo Objev FP, Těžba FPnebo Častá těžba položek) je část objevování znalostí v databázích, Masivní online analýza, a dolování dat; popisuje úkol najít nejčastější a nejrelevantnější vzory ve velkých souborech dat.[1][2]Koncept byl poprvé představen pro těžbu transakčních databází.[3]Časté vzory jsou definovány jako podmnožiny (sady položek, subsekvence nebo podstruktury), které se objevují v datové sadě s frekvencí ne nižší než uživatelem zadaná nebo automaticky určená prahová hodnota.[2][4]
Techniky
Techniky těžby FP zahrnují:
Zjišťování FP lze z větší části provádět pomocí učení asociačního pravidla s konkrétními algoritmy Sláva, FP růst a Apriori algoritmus.
Mezi další strategie patří:
a příslušné specifické techniky.
Implementace existují pro různé strojové učení systémy nebo moduly jako MLlib pro Apache Spark.[5]
Reference
- ^ A b Jiawei Han; Hong Cheng; Dong Xin; Xifeng Yan (2007). „Častá těžba vzorů: současný stav a budoucí směry“ (PDF). Těžba dat a vyhledávání znalostí. 15: 55–86. doi:10.1007 / s10618-006-0059-1. Citováno 2019-01-31.
- ^ A b „Častá těžba vzorů“. SIGKDD. 1980-01-01. Citováno 2019-01-31.
- ^ A b Agrawal, Rakesh; Imieliński, Tomasz; Swami, Arun (01.06.1993). Msgstr "Pravidla asociace těžby mezi sadami položek ve velkých databázích". Záznam ACM SIGMOD. 22 (2): 207–216. CiteSeerX 10.1.1.217.4132. doi:10.1145/170036.170072. ISSN 0163-5808.CS1 maint: ref = harv (odkaz)
- ^ „Časté dolování vzorů, uzavřená častá množina položek, max. Častá množina položek v dolování dat“. Výukové programy T4. 2018-12-09. Citováno 2019-01-31.
- ^ „Častá těžba vzorů“. Dokumentace Spark 2.4.0. Citováno 2019-01-31.