Časté objevování vzorů - Frequent pattern discovery

Časté objevování vzorů (nebo Objev FP, Těžba FPnebo Častá těžba položek) je část objevování znalostí v databázích, Masivní online analýza, a dolování dat; popisuje úkol najít nejčastější a nejrelevantnější vzory ve velkých souborech dat.^[1]^[2]Koncept byl poprvé představen pro těžbu transakčních databází.^[3]Časté vzory jsou definovány jako podmnožiny (sady položek, subsekvence nebo podstruktury), které se objevují v datové sadě s frekvencí ne nižší než uživatelem zadaná nebo automaticky určená prahová hodnota.^[2]^[4]

Techniky

Techniky těžby FP zahrnují:

Zjišťování FP lze z větší části provádět pomocí učení asociačního pravidla s konkrétními algoritmy Sláva, FP růst a Apriori algoritmus.

Mezi další strategie patří:

a příslušné specifické techniky.

Implementace existují pro různé strojové učení systémy nebo moduly jako MLlib pro Apache Spark.^[5]

Reference

^ ^A ^b Jiawei Han; Hong Cheng; Dong Xin; Xifeng Yan (2007). „Častá těžba vzorů: současný stav a budoucí směry“ (PDF). Těžba dat a vyhledávání znalostí. 15: 55–86. doi:10.1007 / s10618-006-0059-1. Citováno 2019-01-31.
^ ^A ^b „Častá těžba vzorů“. SIGKDD. 1980-01-01. Citováno 2019-01-31.
^ ^A ^b Agrawal, Rakesh; Imieliński, Tomasz; Swami, Arun (01.06.1993). Msgstr "Pravidla asociace těžby mezi sadami položek ve velkých databázích". Záznam ACM SIGMOD. 22 (2): 207–216. CiteSeerX 10.1.1.217.4132. doi:10.1145/170036.170072. ISSN 0163-5808.CS1 maint: ref = harv (odkaz)
^ „Časté dolování vzorů, uzavřená častá množina položek, max. Častá množina položek v dolování dat“. Výukové programy T4. 2018-12-09. Citováno 2019-01-31.
^ „Častá těžba vzorů“. Dokumentace Spark 2.4.0. Citováno 2019-01-31.

[xyan-1] A ^b Jiawei Han; Hong Cheng; Dong Xin; Xifeng Yan (2007). „Častá těžba vzorů: současný stav a budoucí směry“ (PDF). Těžba dat a vyhledávání znalostí. 15: 55–86. doi:10.1007 / s10618-006-0059-1. Citováno 2019-01-31.

[sigkdd1980-2] A ^b „Častá těžba vzorů“. SIGKDD. 1980-01-01. Citováno 2019-01-31.

[agarwal1993-3] A ^b Agrawal, Rakesh; Imieliński, Tomasz; Swami, Arun (01.06.1993). Msgstr "Pravidla asociace těžby mezi sadami položek ve velkých databázích". Záznam ACM SIGMOD. 22 (2): 207–216. CiteSeerX 10.1.1.217.4132. doi:10.1145/170036.170072. ISSN 0163-5808.CS1 maint: ref = harv (odkaz)

[t4tutorials-4] „Časté dolování vzorů, uzavřená častá množina položek, max. Častá množina položek v dolování dat“. Výukové programy T4. 2018-12-09. Citováno 2019-01-31.

[spark-5] „Častá těžba vzorů“. Dokumentace Spark 2.4.0. Citováno 2019-01-31.

[1]

[2]

[3]

[4]

[5]