Učení pravidla asociace - Association rule learning - Wikipedia

Učení pravidla asociace je strojové učení založené na pravidlech metoda pro objevování zajímavých vztahů mezi proměnnými ve velkých databázích. Je určen k identifikaci silných pravidel objevených v databázích pomocí určitých měr zajímavosti.^[1]

Na základě konceptu silných pravidel Rakesh Agrawal, Tomasz Imieliński a Arun Swami^[2] zavedla asociační pravidla pro zjišťování zákonitostí mezi produkty ve velkých transakčních datech zaznamenaných společností místě prodeje (POS) systémy v supermarketech. Například pravidlo ${ displaystyle { mathrm {cibule, brambory} } Rightarrow { mathrm {hamburger} }}$ zjištěné v prodejních datech supermarketu by naznačovaly, že pokud si zákazník koupí cibuli a brambory společně, pravděpodobně si také koupí hamburgerové maso. Tyto informace lze použít jako základ pro rozhodování o marketingových aktivitách, jako jsou např. Propagační akce ceny nebo umístění produktu.

Kromě výše uvedeného příkladu z analýza tržního koše asociační pravidla se dnes používají v mnoha aplikačních oblastech včetně Těžba využití webu, detekce narušení, nepřetržitá výroba, a bioinformatika. V kontrastu s sekvenční těžba, učení asociačního pravidla obvykle nezohledňuje pořadí položek v rámci transakce ani napříč transakcemi.

Definice

Ukázková databáze s 5 transakcemi a 5 položkami
ID transakce	mléko	chléb	máslo	pivo	pleny
1	1	1	0	0	0
2	0	0	1	0	0
3	0	0	0	1	1
4	1	1	1	0	0
5	0	1	0	0	0

Podle původní definice Agrawal, Imieliński, Swami^[2] problém dolování asociačních pravidel je definován jako:

Nechat ${ displaystyle I = {i_ {1}, i_ {2}, ldots, i_ {n} }}$ být soubor ${ displaystyle n}$ volané binární atributy položky.

Nechat ${ displaystyle D = {t_ {1}, t_ {2}, ldots, t_ {m} }}$ být soubor transakcí nazývaných databáze.

Každý transakce v ${ displaystyle D}$ má jedinečné ID transakce a obsahuje podmnožinu položek v ${ displaystyle I}$ .

A pravidlo je definován jako implikace formuláře:

${ displaystyle X Rightarrow Y}$ , kde ${ displaystyle X, Y subseteq I}$ .

In Agrawal, Imieliński, Swami^[2] A pravidlo je definován pouze mezi sadou a jednou položkou, ${ displaystyle X Rightarrow i_ {j}}$ pro ${ displaystyle i_ {j} v I}$ .

Každé pravidlo se skládá ze dvou různých sad položek, známých také jako sady položek, ${ displaystyle X}$ a ${ displaystyle Y}$ , kde ${ displaystyle X}$ je nazýván předchůdce nebo na levé straně (LHS) a ${ displaystyle Y}$ následný nebo pravá strana (RHS).

Pro ilustraci konceptů používáme malý příklad z domény supermarketu. Sada položek je ${ displaystyle I = { mathrm {mléko, chléb, máslo, pivo, plenky} }}$ a v tabulce je zobrazena malá databáze obsahující položky, kde v každé položce hodnota 1 znamená přítomnost položky v příslušné transakci a hodnota 0 představuje nepřítomnost položky v dané transakci.

Příkladem pravidla pro supermarket může být ${ displaystyle { mathrm {máslo, chléb} } Rightarrow { mathrm {mléko} }}$ to znamená, že pokud se kupuje máslo a chléb, kupují si zákazníci také mléko.

Poznámka: tento příklad je extrémně malý. V praktických aplikacích potřebuje pravidlo podporu několika stovek transakcí, než ho lze považovat za statisticky významné,^[3] a datové sady často obsahují tisíce nebo miliony transakcí.

Užitečné koncepty

Aby bylo možné vybrat zajímavá pravidla ze sady všech možných pravidel, používají se omezení týkající se různých měr důležitosti a zájmu. Nejznámějšími omezeními jsou minimální prahové hodnoty pro podporu a důvěru.

Nechat ${ displaystyle X, Y}$ být předměty, ${ displaystyle X Rightarrow Y}$ pravidlo přidružení a ${ displaystyle T}$ soubor transakcí dané databáze.

Podpěra, podpora

Podpora je údaj o tom, jak často se v datové sadě objevuje sada položek.

Podpora ${ displaystyle X}$ s ohledem na ${ displaystyle T}$ je definován jako podíl transakcí ${ displaystyle t}$ v datové sadě, která obsahuje sadu položek ${ displaystyle X}$ .

${ displaystyle mathrm {supp} (X) = { frac {| {t v T; X subseteq t } |} {| T |}}}$

V ukázkové datové sadě sada položek ${ displaystyle X = { mathrm {pivo, plenky} }}$ má podporu ${ displaystyle 1/5 = 0,2}$ protože se vyskytuje u 20% všech transakcí (1 z 5 transakcí). Argument ${ displaystyle mathrm {supp} ()}$ je soubor předpokladů, a proto se s růstem stává restriktivnější (místo inkluzivnějšího).^[4]

Dále sada položek ${ displaystyle Y = { mathrm {mléko, chléb, máslo} }}$ má podporu ${ displaystyle 1/5 = 0,2}$ jak se také objevuje u 20% všech transakcí.

Důvěra

Důvěra je známkou toho, jak často bylo pravidlo shledáno pravdivým.

The důvěra hodnota pravidla, ${ displaystyle X Rightarrow Y}$ , s ohledem na soubor transakcí ${ displaystyle T}$ , je podíl transakcí, které obsahuje ${ displaystyle X}$ který také obsahuje ${ displaystyle Y}$ .

Důvěra je definována jako:

${ displaystyle mathrm {conf} (X Rightarrow Y) = mathrm {supp} (X cup Y) / mathrm {supp} (X)}$

Například pravidlo ${ displaystyle { mathrm {máslo, chléb} } Rightarrow { mathrm {mléko} }}$ má důvěru ${ displaystyle 0,2 / 0,2 = 1,0}$ v databázi, což znamená, že u 100% transakcí obsahujících máslo a chléb je pravidlo správné (100% případů, kdy si zákazník kupuje máslo a chléb, kupuje také mléko).

Všimněte si, že ${ displaystyle mathrm {supp} (X cup Y)}$ znamená podporu spojení položek v X a Y. To je poněkud matoucí, protože normálně uvažujeme z hlediska pravděpodobností Události a ne sady položek. Můžeme přepsat ${ displaystyle mathrm {supp} (X cup Y)}$ jako pravděpodobnost ${ displaystyle P (E_ {X} čepice E_ {Y})}$ , kde ${ displaystyle E_ {X}}$ a ${ displaystyle E_ {Y}}$ jsou události, které transakce obsahuje sadu položek ${ displaystyle X}$ a ${ displaystyle Y}$ , resp.^[5]

Důvěru lze tedy interpretovat jako odhad podmíněná pravděpodobnost ${ displaystyle P (E_ {Y} | E_ {X})}$ , pravděpodobnost nalezení RHS pravidla v transakcích za podmínky, že tyto transakce obsahují také LHS.^[4]^[6]

Výtah

The výtah pravidla je definováno jako:

${ displaystyle mathrm {výtah} (X Rightarrow Y) = { frac { mathrm {supp} (X cup Y)} { mathrm {supp} (X) times mathrm {supp} (Y) }}}$

nebo poměr pozorované podpory k očekávané podpoře, pokud by X a Y byly nezávislý.

Například pravidlo ${ displaystyle { mathrm {mléko, chléb} } Rightarrow { mathrm {máslo} }}$ má výtah ${ displaystyle { frac {0,2} {0,4 krát 0,4}} = 1,25}$ .

Pokud by pravidlo mělo výtah 1, znamenalo by to, že pravděpodobnost výskytu předchůdce a pravděpodobnost následku jsou navzájem nezávislé. Pokud jsou dvě události na sobě nezávislé, nelze vyvodit žádné pravidlo zahrnující tyto dvě události.

Pokud je výtah> 1, umožňuje nám to vědět, do jaké míry jsou tyto dva výskyty na sobě závislé, a tato pravidla jsou potenciálně užitečná pro předpovídání následků v budoucích souborech dat.

Pokud je výtah <1, znamená to, že položky se navzájem nahrazují. To znamená, že přítomnost jedné položky má negativní vliv na přítomnost jiné položky a naopak.

Hodnota výtahu spočívá v tom, že zohledňuje jak podporu pravidla, tak celkovou sadu dat.^[4]

Přesvědčení

The přesvědčení pravidla je definována jako ${ displaystyle mathrm {conv} (X Rightarrow Y) = { frac {1- mathrm {supp} (Y)} {1- mathrm {conf} (X Rightarrow Y)}}}$ .^[7]

Například pravidlo ${ displaystyle { mathrm {mléko, chléb} } Rightarrow { mathrm {máslo} }}$ má přesvědčení ${ displaystyle { frac {1-0,4} {1-0,5}} = 1,2}$ , a lze jej interpretovat jako poměr očekávané frekvence, ke které X dojde bez Y (tj. frekvence, kterou pravidlo vytváří nesprávnou predikci), pokud X a Y byly nezávislé, děleno pozorovanou frekvencí nesprávných předpovědí. V tomto příkladu hodnota přesvědčení 1,2 ukazuje, že pravidlo ${ displaystyle { mathrm {mléko, chléb} } Rightarrow { mathrm {máslo} }}$ by bylo nesprávné o 20% častěji (1,2krát častěji), pokud by asociace mezi X a Y byla čistě náhodná.

Alternativní měřítka zajímavosti

Kromě důvěry, další opatření zajímavost byla navržena pravidla. Některá populární opatření jsou:

Sebedůvěra^[8]
Kolektivní síla^[9]
Vliv^[10]

Několik dalších opatření předkládá a srovnává Tan et al.^[11] a Hahsler.^[5] Hledání technik, které mohou modelovat to, co uživatel znal (a použití těchto modelů jako měřítka zajímavosti), je v současné době aktivním výzkumným trendem pod názvem „Subjektivní zajímavost“.

Proces

Mřížka časté sady položek, kde barva pole označuje, kolik transakcí obsahuje kombinaci položek. Pamatujte, že nižší úrovně mřížky mohou obsahovat nanejvýš minimální počet položek jejich rodičů; např. {ac} může mít maximálně

{ displaystyle min (a, c)}

položky. Tomu se říká vlastnost uzavření dolů.^[2]

Pravidla přidružení jsou obvykle požadována k uspokojení uživatelem zadané minimální podpory a uživatelem zadané minimální důvěryhodnosti současně. Generování pravidla přidružení se obvykle dělí na dva samostatné kroky:

K nalezení všech se použije minimální prahová hodnota podpory časté položky v databázi.
Na tyto časté položky je aplikováno minimální omezení spolehlivosti, aby se vytvořila pravidla.

Zatímco druhý krok je přímočarý, první krok vyžaduje více pozornosti.

Nalezení všech častých položek v databázi je obtížné, protože zahrnuje hledání všech možných položek (kombinací položek). Sada možných položek je napájecí sada přes ${ displaystyle I}$ a má velikost ${ displaystyle 2 ^ {n} -1}$ (kromě prázdné sady, která není platnou sadou položek). I když velikost sady energie exponenciálně roste v počtu položek ${ displaystyle n}$ v ${ displaystyle I}$ , efektivní vyhledávání je možné pomocí vlastnost uzavření dolů podpory^[2]^[12] (také zvaný anti-monotónnost^[13]) což zaručuje, že pro častou množinu položek jsou také časté všechny její podmnožiny, takže žádná neobvyklá sada položek nemůže být podmnožinou sady častých položek. Využití této vlastnosti, efektivní algoritmy (např. Apriori^[14] a Eclat^[15]) najdete všechny časté položky.

Dějiny

Koncept pravidel přidružení byl popularizován zejména díky článku Agrawal et al. Z roku 1993,^[2] která od srpna 2015 získala více než 18 000 citací podle Google Scholar, a je tak jedním z nejcitovanějších článků v oblasti Data Mining. To, co se nyní nazývá „pravidla přidružení“, je však představeno již v dokumentu z roku 1966^[16] na GUHA, obecné metodě dolování dat vyvinuté Petr Hájek et al.^[17]

Rané (kolem roku 1989) použití minimální podpory a důvěry k nalezení všech pravidel přidružení je rámec Feature Based Modeling, který našel všechna pravidla s ${ displaystyle mathrm {supp} (X)}$ a ${ displaystyle mathrm {conf} (X Rightarrow Y)}$ větší než uživatelem definovaná omezení.^[18]

Statisticky spolehlivé asociace

Jedním z omezení standardního přístupu k objevování asociací je to, že při prohledávání obrovského počtu možných asociací za účelem hledání kolekcí položek, které se zdají být přidružené, existuje velké riziko nalezení mnoha falešných asociací. Jedná se o sbírky položek, které se vyskytují s neočekávanou frekvencí v datech, ale pouze náhodou. Předpokládejme například, že uvažujeme o kolekci 10 000 položek a hledáme pravidla obsahující dvě položky na levé straně a 1 položku na pravé straně. Existuje přibližně 1 000 000 000 000 takových pravidel. Pokud použijeme statistický test nezávislosti s úrovní významnosti 0,05, znamená to, že existuje pouze 5% šance na přijetí pravidla, pokud neexistuje žádná asociace. Pokud předpokládáme, že neexistují žádné asociace, měli bychom přesto očekávat, že najdeme 50 000 000 000 pravidel. Statisticky spolehlivý objev asociace^[19]^[20] kontroluje toto riziko, ve většině případů snižuje riziko nálezu žádný falešné asociace na úroveň významnosti specifikovanou uživatelem.

Algoritmy

Bylo navrženo mnoho algoritmů pro generování asociačních pravidel.

Některé známé algoritmy jsou A priori, Eclat a FP-Growth, ale dělají jen polovinu práce, protože jsou to algoritmy pro těžbu častých položek. Po vygenerování pravidel z častých sad položek nalezených v databázi je třeba provést další krok.

Apriori algoritmus

A priori^[14] používá strategii pro vyhledávání na šířku k počítání podpory položek položek a používá funkci generování kandidátů, která využívá vlastnost uzavření dolů podpory.

Eclatův algoritmus

Sláva^[15] (alt. ECLAT, znamená Transformace třídy ekvivalence) je a hloubkové vyhledávání algoritmus založený na nastavené křižovatce. Je vhodný jak pro sekvenční, tak pro paralelní provedení s vlastnostmi zvyšujícími lokalitu.^[21]^[22]

Algoritmus růstu FP

FP znamená častý vzor.^[23]

Při prvním průchodu algoritmus spočítá výskyty položek (páry atribut-hodnota) v datové sadě transakcí a uloží tyto počty do „tabulky záhlaví“. Ve druhém průchodu vytvoří strukturu stromu FP vložením transakcí do a trie.

Položky v každé transakci je třeba před vložením seřadit podle sestupného pořadí jejich frekvence v datové sadě, aby bylo možné strom rychle zpracovat. Položky v každé transakci, které nesplňují minimální požadavek na podporu, jsou zahozeny. položky, strom FP poskytuje vysokou kompresi blízko kořene stromu.

Rekurzivní zpracování této komprimované verze hlavní datové sady rozšiřuje časté sady položek přímo, namísto generování kandidátských položek a jejich testování proti celé databázi (jako v algoritmu apriori).

Růst začíná od dolní části tabulky záhlaví, tj. U položky s nejmenší podporou vyhledáním všech seřazených transakcí, které v této položce končí. Zavolejte tuto položku ${ displaystyle I}$ .

Je vytvořen nový podmíněný strom, na který se promítá původní strom FP ${ displaystyle I}$ . Podpory všech uzlů v projektovaném stromu se přepočítají, přičemž každý uzel získá součet jeho podřízených počtů. Uzly (a tedy podstromy), které nesplňují minimální podporu, jsou prořezány. Rekurzivní růst končí, když nejsou podmíněny žádné jednotlivé položky ${ displaystyle I}$ splnit minimální práh podpory. Výsledné cesty od kořene k ${ displaystyle I}$ budou časté položky. Po tomto kroku pokračuje zpracování s další nejméně podporovanou položkou záhlaví původního stromu FP.

Po dokončení rekurzivního procesu budou nalezeny všechny časté sady položek a začne vytváření pravidla přidružení.^[24]

Ostatní

ASSOC

Postup ASSOC^[25] je metoda GUHA, která rychle využívá dolary pro obecná pravidla přidružení bitstrings operace. Pravidla přidružení těžená touto metodou jsou obecnější než pravidla vydaná apriori, například „položky“ mohou být spojeny jak s konjunkcí, tak s disjunkce a vztah mezi předchůdcem a následkem pravidla se neomezuje na stanovení minimální podpory a důvěry jako v apriori: lze použít libovolnou kombinaci opatření podporovaného úroku.

Hledání OPUS

OPUS je efektivní algoritmus pro zjišťování pravidel, který na rozdíl od většiny alternativ nevyžaduje monotónní ani anti-monotónní omezení, jako je minimální podpora.^[26] Zpočátku se používá k nalezení pravidel pro pevný následník^[26]^[27] následně byla rozšířena o vyhledání pravidel s jakoukoli položkou.^[28] Hledání OPUS je základní technologií v populárním systému zjišťování asociací Magnum Opus.

Lore

Slavným příběhem o těžbě asociačních pravidel je příběh „pivo a plenka“. Údajný průzkum chování nakupujících v supermarketech zjistil, že zákazníci (pravděpodobně mladí muži), kteří kupují plenky, mají tendenci kupovat také pivo. Tato anekdota se stala populární jako příklad toho, jak lze z každodenních dat najít neočekávaná pravidla přidružení. Názory na to, jak velká část příběhu je pravdivá, se liší.^[29] Daniel Powers říká:^[29]

V roce 1992 Thomas Blischok, manažer maloobchodní poradenské skupiny ve společnosti Teradata a jeho zaměstnanci připravili analýzu 1,2 milionu košů z asi 25 obchodů Osco Drug. Byly vyvinuty databázové dotazy k identifikaci spřízněnosti. Analýza „zjistila, že mezi 17:00 a 19:00 si spotřebitelé kupovali pivo a plenky“. Manažeři společnosti Osco NEVYUŽÍVALI vztah piva a plenek tím, že produkty na regálech přibližovali k sobě.

Jiné typy těžby asociačních pravidel

Pravidla asociace s více vztahy: Multi-Relation Association Rules (MRAR) are asociační pravidla, kde každá položka může mít několik vztahů. Tyto vztahy naznačují nepřímý vztah mezi entitami. Zvažte následující MRAR, kde první položka se skládá ze tří vztahů žít v, poblíž a vlhký: "Ti, kteří žít v místo, které je poblíž město s vlhký klimatický typ a také jsou mladší než 20 -> jejich zdravotní stav je dobrý". Taková asociační pravidla lze extrahovat z dat RDBMS nebo sémantických webových dat.^[30]

Učení kontrastní sady je forma asociativního učení. Kontrastní sada studentů používat pravidla, která se smysluplně liší v jejich distribuci napříč podmnožinami.^[31]^[32]

Vážené učení třídy je další forma asociativního učení, při které lze třídám přiřadit váhu, aby bylo možné zaměřit se na konkrétní problém, který se týká spotřebitele výsledků dolování dat.

Objevování vzorů vysokého řádu usnadňují zachycení (syntetických) vzorů vysokého řádu nebo asociací událostí, které jsou vlastní komplexním datům v reálném světě.^[33]

Optimální objevování vzorů K. poskytuje alternativu ke standardnímu přístupu k učení pravidel přidružení, která vyžaduje, aby se každý vzor v datech zobrazoval často.

Přibližná častá položka mining je uvolněná verze těžby Frequent Itemset, která umožňuje, aby některé položky v některých řádcích byly 0.^[34]

Zobecněná pravidla přidružení hierarchická taxonomie (pojmová hierarchie)

Kvantitativní pravidla přidružení kategorická a kvantitativní data

Pravidla pro intervalové přidružení dat např. rozdělit věk na 5letý přírůstek

Těžba sekvenčních vzorů objevuje posloupnosti, které jsou společné pro více než minsup^{[je zapotřebí objasnění ]} sekvence v databázi sekvencí, kde minsup nastavuje uživatel. Sekvence je seřazený seznam transakcí.^[35]

Shlukování podprostorů, konkrétní typ Shlukování vysoce dimenzionálních dat, je v mnoha variantách také založen na vlastnosti uzavření dolů pro konkrétní modely shlukování.^[36]

Warmr je dodáván jako součást sady pro dolování dat ACE. Umožňuje učení asociačních pravidel pro relační pravidla prvního řádu.^[37]

Viz také

Reference

^ Piatetsky-Shapiro, Gregory (1991), Objev, analýza a prezentace přísných pravidel, Piatetsky-Shapiro, Gregory; a Frawley, William J .; eds., Zjištění znalostí v databázích, AAAI / MIT Press, Cambridge, MA.
^ ^A ^b ^C ^d ^E ^F Agrawal, R .; Imieliński, T .; Swami, A. (1993). Msgstr "Pravidla asociace těžby mezi sadami položek ve velkých databázích". Sborník mezinárodní konference ACM SIGMOD z roku 1993 o správě dat - SIGMOD '93. p. 207. CiteSeerX 10.1.1.40.6984. doi:10.1145/170035.170072. ISBN 978-0897915922. S2CID 490415.
^ Khalid, Saifullah (2018). „Apriori Algorithm“. Aplikovaná výpočetní inteligence a soft computing ve strojírenství. Egypt: Hindawi Limited. 288–289. ISBN 9781522531296.
^ ^A ^b ^C Hahsler, Michael (2005). „Úvod do arules - výpočetní prostředí pro pravidla asociace těžby a časté sady položek“ (PDF). Žurnál statistického softwaru. doi:10.18637 / jss.v014.i15.
^ ^A ^b Michael Hahsler (2015). Pravděpodobnostní srovnání běžně používaných měr úroků pro pravidla přidružení. http://michael.hahsler.net/research/association_rules/measures.html
^ Hipp, J .; Güntzer, U .; Nakhaeizadeh, G. (2000). "Algoritmy pro dolování pravidel asociace --- obecný průzkum a srovnání". Informační bulletin průzkumů ACM SIGKDD. 2: 58–64. CiteSeerX 10.1.1.38.5305. doi:10.1145/360402.360421. S2CID 9248096.
^ Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D .; Tsur, Shalom (1997). Msgstr "Dynamické počítání položek a implikační pravidla pro data tržního koše". Sborník mezinárodní konference ACM SIGMOD z roku 1997 o správě dat - SIGMOD '97. 255–264. CiteSeerX 10.1.1.41.6476. doi:10.1145/253260.253325. ISBN 978-0897919111. S2CID 15385590.
^ Omiecinski, E.R. (2003). "Alternativní úroková opatření pro těžební sdružení v databázích". Transakce IEEE na znalostní a datové inženýrství. 15: 57–69. CiteSeerX 10.1.1.329.5344. doi:10.1109 / TKDE.2003.1161582.
^ Aggarwal, Charu C .; Yu, Philip S. (1998). Msgstr "Nový rámec pro generování položek". Sborník ze sedmnáctého sympozia ACM SIGACT-SIGMOD-SIGART o zásadách databázových systémů - PODS '98. str. 18–24. CiteSeerX 10.1.1.24.714. doi:10.1145/275487.275490. ISBN 978-0897919968. S2CID 11934586.
^ Piatetsky-Shapiro, Gregory; Objev, analýza a prezentace přísných pravidel, Discovery Knowledge in Database, 1991, str. 229-248
^ Tan, Pang-Ning; Kumar, Vipin; Srivastava, Jaideep (2004). Msgstr "Výběr správného objektivního měřítka pro asociační analýzu". Informační systémy. 29 (4): 293–313. CiteSeerX 10.1.1.331.4740. doi:10.1016 / S0306-4379 (03) 00072-3.
^ Tan, Pang-Ning; Michael, Steinbach; Kumar, Vipin (2005). "Kapitola 6. Analýza asociace: základní koncepty a algoritmy" (PDF). Úvod do dolování dat. Addison-Wesley. ISBN 978-0-321-32136-7.
^ Jian Pei; Jiawei Han; Lakshmanan, L.V.S. (2001). Msgstr "Těžba častých položek se zaměnitelnými omezeními". Sborník 17. mezinárodní konference o datovém inženýrství. 433–442. CiteSeerX 10.1.1.205.2150. doi:10.1109 / ICDE.2001.914856. ISBN 978-0-7695-1001-9. S2CID 1080975.
^ ^A ^b Agrawal, Rakesh; a Srikant, Ramakrishnan; Rychlé algoritmy pro dolování asociačních pravidel ve velkých databázích Archivováno 2015-02-25 na Wayback Machine, v Bocca, Jorge B .; Jarke, Matthias; a Zaniolo, Carlo; redaktoři, Sborník příspěvků z 20. mezinárodní konference o velmi velkých databázích (VLDB), Santiago, Chile, září 1994, strany 487-499
^ ^A ^b Zaki, M. J. (2000). Msgstr "Škálovatelné algoritmy pro asociační těžbu". Transakce IEEE na znalostní a datové inženýrství. 12 (3): 372–390. CiteSeerX 10.1.1.79.9448. doi:10.1109/69.846291.
^ Hájek, P .; Havel, I .; Chytil, M. (1966). "GUHA metoda automatického stanovení hypotéz". Výpočetní. 1 (4): 293–308. doi:10.1007 / BF02345483. S2CID 10511114.
^ Hájek, Petr; Rauch, Jan; Coufal, David; Feglar, Tomáš (2004). "Metoda GUHA, předzpracování a těžba dat". Databázová podpora pro aplikace pro dolování dat. Přednášky z informatiky. 2682. str. 135–153. doi:10.1007/978-3-540-44497-8_7. ISBN 978-3-540-22479-2.
^ Webb, Geoffrey (1989). "Přístup strojového učení k modelování studentů". Sborník ze třetí australské společné konference o umělé inteligenci (AI 89): 195–205.
^ Webb, Geoffrey I. (2007). „Objevování významných vzorů“. Strojové učení. 68: 1–33. doi:10.1007 / s10994-007-5006-x.
^ Gionis, Aristides; Mannila, Heikki; Mielikäinen, Taneli; Tsaparas, Panayiotis (2007). Msgstr "Hodnocení výsledků dolování dat pomocí randomizace swapu". Transakce ACM při zjišťování znalostí z dat. 1 (3): 14 – es. CiteSeerX 10.1.1.141.2607. doi:10.1145/1297332.1297338. S2CID 52305658.
^ Zaki, Mohammed Javeed; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). „Nové algoritmy pro rychlé zjištění pravidel přidružení“: 283–286. CiteSeerX 10.1.1.42.3283. hdl:1802/501. Citovat deník vyžaduje | deník = (Pomoc)
^ Zaki, Mohammed J .; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). Msgstr "Paralelní algoritmy pro zjištění pravidel přidružení". Těžba dat a vyhledávání znalostí. 1 (4): 343–373. doi:10.1023 / A: 1009773317876. S2CID 10038675.
^ Han (2000). "Těžba častých vzorů bez generování kandidátů". Sborník mezinárodní konference ACM SIGMOD z roku 2000 o správě dat - SIGMOD '00. Sborník mezinárodní konference ACM SIGMOD o správě dat z roku 2000. SIGMOD '00. s. 1–12. CiteSeerX 10.1.1.40.4436. doi:10.1145/342009.335372. ISBN 978-1581132175. S2CID 6059661.
^ Witten, Frank, Hall: Praktické nástroje a techniky strojového učení pro těžbu dat, 3. vydání^{[stránka potřebná ]}
^ Hájek, Petr; Havránek, Tomáš (1978). Mechanizace formování hypotéz: Matematické základy pro obecnou teorii. Springer-Verlag. ISBN 978-3-540-08738-0.
^ ^A ^b Webb, Geoffrey I. (1995); OPUS: Efektivní přípustný algoritmus pro neuspořádané vyhledávání, Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, pp. 431-465 online přístup
^ Bayardo, Roberto J., Jr.; Agrawal, Rakesh; Gunopulos, Dimitrios (2000). "Těžba pravidel založená na omezeních ve velkých a hustých databázích". Těžba dat a vyhledávání znalostí. 4 (2): 217–240. doi:10.1023 / A: 1009895914772. S2CID 5120441.
^ Webb, Geoffrey I. (2000). Msgstr "Efektivní vyhledávání pravidel přidružení". Sborník příspěvků ze šesté mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat - KDD '00. 99–107. CiteSeerX 10.1.1.33.1309. doi:10.1145/347090.347112. ISBN 978-1581132335. S2CID 5444097.
^ ^A ^b „DSS News: Vol. 3, No. 23“.
^ Ramezani, Reza, Mohamad Sunniee a Mohammad Ali Nematbakhsh; MRAR: Mining Multi-Relation Association Rules, Journal of Computing and Security, 1, no. 2 (2014)
^ GI Webb a S. Butler a D. Newlands (2003). O detekci rozdílů mezi skupinami. KDD'03 Sborník z deváté mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat.
^ Menzies, T .; Ying Hu (2003). "Výpočetní postupy - dolování dat pro velmi zaneprázdněné lidi". Počítač. 36 (11): 22–29. doi:10.1109 / MC.2003.1244531.
^ Wong, A.K.C .; Yang Wang (1997). "Zjištění vzoru nejvyššího řádu z diskrétních dat". Transakce IEEE na znalostní a datové inženýrství. 9 (6): 877–893. CiteSeerX 10.1.1.189.1704. doi:10.1109/69.649314.
^ Liu, Jinze; Paulsen, Susan; Slunce, Xing; Wang, Wei; Nobel, Andrew; Prins, Jan (2006). "Těžba přibližných častých položek v přítomnosti šumu: Algoritmus a analýza". Sborník mezinárodní konference SIAM z roku 2006 o dolování dat. 407–418. CiteSeerX 10.1.1.215.3599. doi:10.1137/1.9781611972764.36. ISBN 978-0-89871-611-5.
^ Zaki, Mohammed J. (2001); SPADE: Efektivní algoritmus pro časté sekvence těžby, Machine Learning Journal, 42, str. 31–60
^ Zimek, Arthur; Souhlas, Ira; Vreeken, Jilles (2014). Častá těžba vzorů. 403–423. doi:10.1007/978-3-319-07821-2_16. ISBN 978-3-319-07820-5.
^ King, R. D .; Srinivasan, A .; Dehaspe, L. (únor 2001). "Warmr: nástroj pro dolování dat pro chemická data". J Comput Aided Mol Des. 15 (2): 173–81. Bibcode:2001JCAMD..15..173K. doi:10.1023 / A: 1008171016861. PMID 11272703. S2CID 3055046.

Bibliografie

Komentovaná bibliografie o pravidlech sdružení M. Hahsler

[piatetsky-1] Piatetsky-Shapiro, Gregory (1991), Objev, analýza a prezentace přísných pravidel, Piatetsky-Shapiro, Gregory; a Frawley, William J .; eds., Zjištění znalostí v databázích, AAAI / MIT Press, Cambridge, MA.

[mining-2] A ^b ^C ^d ^E ^F Agrawal, R .; Imieliński, T .; Swami, A. (1993). Msgstr "Pravidla asociace těžby mezi sadami položek ve velkých databázích". Sborník mezinárodní konference ACM SIGMOD z roku 1993 o správě dat - SIGMOD '93. p. 207. CiteSeerX 10.1.1.40.6984. doi:10.1145/170035.170072. ISBN 978-0897915922. S2CID 490415.

[3] Khalid, Saifullah (2018). „Apriori Algorithm“. Aplikovaná výpočetní inteligence a soft computing ve strojírenství. Egypt: Hindawi Limited. 288–289. ISBN 9781522531296.

[:0-4] A ^b ^C Hahsler, Michael (2005). „Úvod do arules - výpočetní prostředí pro pravidla asociace těžby a časté sady položek“ (PDF). Žurnál statistického softwaru. doi:10.18637 / jss.v014.i15.

[michael.hahsler.net-5] A ^b Michael Hahsler (2015). Pravděpodobnostní srovnání běžně používaných měr úroků pro pravidla přidružení. http://michael.hahsler.net/research/association_rules/measures.html

[hipp-6] Hipp, J .; Güntzer, U .; Nakhaeizadeh, G. (2000). "Algoritmy pro dolování pravidel asociace --- obecný průzkum a srovnání". Informační bulletin průzkumů ACM SIGKDD. 2: 58–64. CiteSeerX 10.1.1.38.5305. doi:10.1145/360402.360421. S2CID 9248096.

[brin-dynamic-itemset1-7] Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D .; Tsur, Shalom (1997). Msgstr "Dynamické počítání položek a implikační pravidla pro data tržního koše". Sborník mezinárodní konference ACM SIGMOD z roku 1997 o správě dat - SIGMOD '97. 255–264. CiteSeerX 10.1.1.41.6476. doi:10.1145/253260.253325. ISBN 978-0897919111. S2CID 15385590.

[allconfidence-8] Omiecinski, E.R. (2003). "Alternativní úroková opatření pro těžební sdružení v databázích". Transakce IEEE na znalostní a datové inženýrství. 15: 57–69. CiteSeerX 10.1.1.329.5344. doi:10.1109 / TKDE.2003.1161582.

[collectivestrength-9] Aggarwal, Charu C .; Yu, Philip S. (1998). Msgstr "Nový rámec pro generování položek". Sborník ze sedmnáctého sympozia ACM SIGACT-SIGMOD-SIGART o zásadách databázových systémů - PODS '98. str. 18–24. CiteSeerX 10.1.1.24.714. doi:10.1145/275487.275490. ISBN 978-0897919968. S2CID 11934586.

[leverage-10] Piatetsky-Shapiro, Gregory; Objev, analýza a prezentace přísných pravidel, Discovery Knowledge in Database, 1991, str. 229-248

[measurescomp-11] Tan, Pang-Ning; Kumar, Vipin; Srivastava, Jaideep (2004). Msgstr "Výběr správného objektivního měřítka pro asociační analýzu". Informační systémy. 29 (4): 293–313. CiteSeerX 10.1.1.331.4740. doi:10.1016 / S0306-4379 (03) 00072-3.

[12] Tan, Pang-Ning; Michael, Steinbach; Kumar, Vipin (2005). "Kapitola 6. Analýza asociace: základní koncepty a algoritmy" (PDF). Úvod do dolování dat. Addison-Wesley. ISBN 978-0-321-32136-7.

[pei-13] Jian Pei; Jiawei Han; Lakshmanan, L.V.S. (2001). Msgstr "Těžba častých položek se zaměnitelnými omezeními". Sborník 17. mezinárodní konference o datovém inženýrství. 433–442. CiteSeerX 10.1.1.205.2150. doi:10.1109 / ICDE.2001.914856. ISBN 978-0-7695-1001-9. S2CID 1080975.

[apriori-14] A ^b Agrawal, Rakesh; a Srikant, Ramakrishnan; Rychlé algoritmy pro dolování asociačních pravidel ve velkých databázích Archivováno 2015-02-25 na Wayback Machine, v Bocca, Jorge B .; Jarke, Matthias; a Zaniolo, Carlo; redaktoři, Sborník příspěvků z 20. mezinárodní konference o velmi velkých databázích (VLDB), Santiago, Chile, září 1994, strany 487-499

[eclat-15] A ^b Zaki, M. J. (2000). Msgstr "Škálovatelné algoritmy pro asociační těžbu". Transakce IEEE na znalostní a datové inženýrství. 12 (3): 372–390. CiteSeerX 10.1.1.79.9448. doi:10.1109/69.846291.

[guha_oldest-16] Hájek, P .; Havel, I .; Chytil, M. (1966). "GUHA metoda automatického stanovení hypotéz". Výpočetní. 1 (4): 293–308. doi:10.1007 / BF02345483. S2CID 10511114.

[pospaper-17] Hájek, Petr; Rauch, Jan; Coufal, David; Feglar, Tomáš (2004). "Metoda GUHA, předzpracování a těžba dat". Databázová podpora pro aplikace pro dolování dat. Přednášky z informatiky. 2682. str. 135–153. doi:10.1007/978-3-540-44497-8_7. ISBN 978-3-540-22479-2.

[18] Webb, Geoffrey (1989). "Přístup strojového učení k modelování studentů". Sborník ze třetí australské společné konference o umělé inteligenci (AI 89): 195–205.

[19] Webb, Geoffrey I. (2007). „Objevování významných vzorů“. Strojové učení. 68: 1–33. doi:10.1007 / s10994-007-5006-x.

[20] Gionis, Aristides; Mannila, Heikki; Mielikäinen, Taneli; Tsaparas, Panayiotis (2007). Msgstr "Hodnocení výsledků dolování dat pomocí randomizace swapu". Transakce ACM při zjišťování znalostí z dat. 1 (3): 14 – es. CiteSeerX 10.1.1.141.2607. doi:10.1145/1297332.1297338. S2CID 52305658.

[21] Zaki, Mohammed Javeed; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). „Nové algoritmy pro rychlé zjištění pravidel přidružení“: 283–286. CiteSeerX 10.1.1.42.3283. hdl:1802/501. Citovat deník vyžaduje | deník = (Pomoc)

[22] Zaki, Mohammed J .; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). Msgstr "Paralelní algoritmy pro zjištění pravidel přidružení". Těžba dat a vyhledávání znalostí. 1 (4): 343–373. doi:10.1023 / A: 1009773317876. S2CID 10038675.

[23] Han (2000). "Těžba častých vzorů bez generování kandidátů". Sborník mezinárodní konference ACM SIGMOD z roku 2000 o správě dat - SIGMOD '00. Sborník mezinárodní konference ACM SIGMOD o správě dat z roku 2000. SIGMOD '00. s. 1–12. CiteSeerX 10.1.1.40.4436. doi:10.1145/342009.335372. ISBN 978-1581132175. S2CID 6059661.

[24] Witten, Frank, Hall: Praktické nástroje a techniky strojového učení pro těžbu dat, 3. vydání^{[stránka potřebná ]}

[25] Hájek, Petr; Havránek, Tomáš (1978). Mechanizace formování hypotéz: Matematické základy pro obecnou teorii. Springer-Verlag. ISBN 978-3-540-08738-0.

[OPUS-26] A ^b Webb, Geoffrey I. (1995); OPUS: Efektivní přípustný algoritmus pro neuspořádané vyhledávání, Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, pp. 431-465 online přístup

[Bayardo-27] Bayardo, Roberto J., Jr.; Agrawal, Rakesh; Gunopulos, Dimitrios (2000). "Těžba pravidel založená na omezeních ve velkých a hustých databázích". Těžba dat a vyhledávání znalostí. 4 (2): 217–240. doi:10.1023 / A: 1009895914772. S2CID 5120441.

[webb-28] Webb, Geoffrey I. (2000). Msgstr "Efektivní vyhledávání pravidel přidružení". Sborník příspěvků ze šesté mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat - KDD '00. 99–107. CiteSeerX 10.1.1.33.1309. doi:10.1145/347090.347112. ISBN 978-1581132335. S2CID 5444097.

[dss-29] A ^b „DSS News: Vol. 3, No. 23“.

[MRAR:_Mining_Multi-Relation_Association_Rules-30] Ramezani, Reza, Mohamad Sunniee a Mohammad Ali Nematbakhsh; MRAR: Mining Multi-Relation Association Rules, Journal of Computing and Security, 1, no. 2 (2014)

[webb03-31] GI Webb a S. Butler a D. Newlands (2003). O detekci rozdílů mezi skupinami. KDD'03 Sborník z deváté mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat.

[busy-32] Menzies, T .; Ying Hu (2003). "Výpočetní postupy - dolování dat pro velmi zaneprázdněné lidi". Počítač. 36 (11): 22–29. doi:10.1109 / MC.2003.1244531.

[discovere-33] Wong, A.K.C .; Yang Wang (1997). "Zjištění vzoru nejvyššího řádu z diskrétních dat". Transakce IEEE na znalostní a datové inženýrství. 9 (6): 877–893. CiteSeerX 10.1.1.189.1704. doi:10.1109/69.649314.

[34] Liu, Jinze; Paulsen, Susan; Slunce, Xing; Wang, Wei; Nobel, Andrew; Prins, Jan (2006). "Těžba přibližných častých položek v přítomnosti šumu: Algoritmus a analýza". Sborník mezinárodní konference SIAM z roku 2006 o dolování dat. 407–418. CiteSeerX 10.1.1.215.3599. doi:10.1137/1.9781611972764.36. ISBN 978-0-89871-611-5.

[sequence-35] Zaki, Mohammed J. (2001); SPADE: Efektivní algoritmus pro časté sekvence těžby, Machine Learning Journal, 42, str. 31–60

[ZimekAssent2014-36] Zimek, Arthur; Souhlas, Ira; Vreeken, Jilles (2014). Častá těžba vzorů. 403–423. doi:10.1007/978-3-319-07821-2_16. ISBN 978-3-319-07820-5.

[37] King, R. D .; Srinivasan, A .; Dehaspe, L. (únor 2001). "Warmr: nástroj pro dolování dat pro chemická data". J Comput Aided Mol Des. 15 (2): 173–81. Bibcode:2001JCAMD..15..173K. doi:10.1023 / A: 1008171016861. PMID 11272703. S2CID 3055046.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]