Výtah (dolování dat) - Lift (data mining) - Wikipedia
v dolování dat a učení asociačního pravidla, výtah je měřítkem výkonu cílení Modelka (asociační pravidlo) při předpovídání nebo klasifikaci případů jako případů se zvýšenou odpovědí (s ohledem na populaci jako celek), měřeno proti modelu cílení na základě náhodné volby. Model cílení odvádí dobrou práci, pokud je reakce v rámci cíle mnohem lepší než průměr za populaci jako celek. Lift je jednoduše poměr těchto hodnot: cílová odezva děleno průměrnou odezvou.
Předpokládejme například, že populace má průměrnou míru odezvy 5%, ale určitý model (nebo pravidlo) identifikoval segment s mírou odezvy 20%. Tento segment by pak měl nárůst o 4,0 (20% / 5%).
Modelář se obvykle snaží rozdělit populaci na kvantily a seřazte kvantily výtahem. Organizace pak mohou zvážit každý kvantil a zvážením predikované míry odezvy (a souvisejícího finančního přínosu) oproti ceně se mohou rozhodnout, zda na trh s tímto kvantilem budou nebo nebudou.
Křivku zdvihu lze také považovat za změnu na provozní charakteristika přijímače (ROC) křivka, a je také známý v ekonometrii jako Lorenz nebo výkonová křivka.[1]
Příklad
Předpokládejme, že datová sada, která se těží, je:
Předchůdce | Důsledek |
---|---|
A | 0 |
A | 0 |
A | 1 |
A | 0 |
B | 1 |
B | 0 |
B | 1 |
kde antecedent je vstupní proměnná, kterou můžeme ovládat, a následkem je proměnná, kterou se snažíme předvídat. Skutečné problémy s těžbou by obvykle měly složitější předchůdce, ale obvykle by se zaměřily na důsledky jedné hodnoty.
Většina těžařských algoritmů by určovala následující pravidla (modely cílení):
- Pravidlo 1: A znamená 0
- Pravidlo 2: B znamená 1
protože to jsou jednoduše nejběžnější vzory nalezené v datech. Jednoduchá kontrola výše uvedené tabulky by měla tato pravidla učinit zřejmými.
The Podpěra, podpora pro pravidlo 1 je 3/7, protože to je počet položek v datové sadě, ve které je předchůdcem A a následné 0. Podpora pravidla 2 je 2/7, protože dva ze sedmi záznamů splňují předchůdce B a následek 1. Podpora může být napsána jako:
The důvěra pro pravidlo 1 je 3/4, protože tři ze čtyř záznamů, které splňují předchůdce A, splňují důsledek 0. Důvěra pro pravidlo 2 je 2/3, protože dva ze tří záznamů, které splňují předchůdce B, splňují následek 1. Důvěry lze psát jako:
Lift lze nalézt vydělením důvěry bezpodmínečnou pravděpodobností následku nebo vydělením podpory pravděpodobností předchůdců krát pravděpodobností následku, takže:
- Výtah pro pravidlo 1 je (3/4) / (4/7) = (3 * 7) / (4 * 4) = 21/16 ≈ 1,31
- Výtah pro pravidlo 2 je (2/3) / (3/7) = (2 * 7) / (3 * 3) = 14/9 ≈ 1,56
Pokud by některé pravidlo mělo výtah 1, znamenalo by to, že pravděpodobnost výskytu předchůdce a pravděpodobnost následku jsou navzájem nezávislé. Pokud jsou dvě události na sobě nezávislé, nelze vyvodit žádné pravidlo zahrnující tyto dvě události.
Pokud je výtah> 1, jako je tomu zde u pravidel 1 a 2, umožňuje nám to zjistit, do jaké míry jsou tyto dva výskyty na sobě závislé, a tato pravidla jsou potenciálně užitečná pro předpovídání následků v budoucích souborech dat.
Všimněte si, že i když má pravidlo 1 větší jistotu, má nižší zdvih. Intuitivně by se zdálo, že pravidlo 1 je cennější kvůli své vyšší důvěře - zdá se být přesnější (lépe podporováno). Přesnost pravidla nezávislého na souboru dat však může být zavádějící. Hodnota nárůstu spočívá v tom, že zohledňuje jak důvěryhodnost pravidla, tak celkovou sadu dat.
Reference
- ^ Tufféry, Stéphane (2011); Těžba dat a statistika pro rozhodování, Chichester, GB: John Wiley & Sons, přeloženo z francouzštiny Data Mining et statistique décisionnelle (Éditions Technip, 2008)
- Coppock, David S. (2002-06-21). „Proč Lift?“. Citováno 2015-07-05.