Učení kontrastní sady - Contrast set learning - Wikipedia

Učení kontrastní sady je forma učení asociačního pravidla která se snaží identifikovat smysluplné rozdíly mezi jednotlivými skupinami reverzním inženýrstvím klíčových prediktorů, které identifikují pro každou konkrétní skupinu. Například vzhledem k sadě atributů pro skupinu studentů (označenou typem titulu) by student kontrastní sady identifikoval kontrastní rysy mezi studenty, kteří hledají bakalářské tituly, a těmi, kteří pracují na získání titulu PhD.

Přehled

Běžná praxe v dolování dat je klasifikovat, podívat se na atributy objektu nebo situace a uhodnout, do jaké kategorie sledovaná položka patří. Jak se zkoumají nové důkazy (obvykle krmením a tréninková sada k učení algoritmus ), tyto odhady jsou vylepšeny a vylepšeny. Učení kontrastní sady funguje opačným směrem. Zatímco klasifikátory čtou kolekci dat a shromažďují informace, které se používají k umístění nových dat do řady samostatných kategorií, učení kontrastní sady bere kategorii, do které položka patří, a pokouší se zpětně analyzovat statistické důkazy, které identifikují položku jako člena třídy. To znamená, že studenti kontrastní sady hledají pravidla, která spojují hodnoty atributů se změnami v distribuci tříd.[1] Snaží se identifikovat klíčové prediktory, které kontrastují s jednou klasifikací od druhé.

Například letecký inženýr by mohl zaznamenávat data o testovacích startech nové rakety. Měření by byla prováděna v pravidelných intervalech během startu, přičemž by se měly brát v úvahu faktory, jako je trajektorie rakety, provozní teploty, vnější tlaky atd. Pokud spuštění rakety selže po řadě úspěšných testů, mohl technik použít učení kontrastní sady k rozlišení mezi úspěšnými a neúspěšnými testy. Žák kontrastní sady vytvoří sadu asociačních pravidel, která po aplikaci budou označovat klíčové prediktory každého neúspěšného testu oproti úspěšnému (teplota byla příliš vysoká, tlak větru příliš vysoký atd.).

Učení kontrastní sady je formou učení asociačního pravidla.[2] Studenti pravidel asociace obvykle nabízejí pravidla spojující atributy, které se běžně vyskytují společně v tréninkové sadě (například lidé, kteří jsou zapsáni do čtyřletých programů a mají plné zatížení kurzu, mají tendenci také žít poblíž kampusu). Místo hledání pravidel, která popisují současnou situaci, studenti kontrastní sady hledají pravidla, která se smysluplně liší v jejich distribuci mezi skupinami (a lze je tedy použít jako prediktory pro tyto skupiny).[3] Student kontrastní sady se může například zeptat: „Jaké jsou klíčové identifikátory osoby s bakalářským titulem nebo osoby s doktorátem a v čem se liší lidé s titulem PhD a bakalářem?“

Standard klasifikátor algoritmy, jako např C4.5, nemají žádnou představu o důležitosti třídy (to znamená, že neví, zda je třída „dobrá“ nebo „špatná“). Takoví studenti nemohou zaujmout nebo filtrovat své předpovědi směrem k určitým požadovaným třídám. Jelikož cílem učení zaměřeného na kontrast je objevit smysluplné rozdíly mezi skupinami, je užitečné být schopen naučená pravidla zacílit na určité klasifikace. Několik studentů kontrastní sady, například MINWAL[4] nebo rodina algoritmů TAR,[5][6][7] přiřadit váhy každé třídě, aby se naučené teorie zaměřily na výsledky, které zajímají konkrétní publikum. Učení založené na kontrastu lze tedy považovat za formu váženého učení třídy.[8]

Příklad: Nákupy v supermarketu

Rozdíly mezi standardní klasifikací, učením asociačních pravidel a učením kontrastní sady lze ilustrovat jednoduchou metaforou supermarketu. V následující malé datové sadě je každý řádek transakcí v supermarketu a každá „1“ označuje, že položka byla zakoupena („0“ označuje, že položka nebyla zakoupena):

HamburgerBramboryFoie GrasCibuleŠampaňskéÚčel nákupů
11010Vaření
11010Vaření
00101Výročí
11010Vaření
11001Frat párty

Vzhledem k těmto údajům

  • Učení pravidel sdružení může zjistit, že zákazníci, kteří společně kupují cibuli a brambory, si pravděpodobně koupí také hamburgerové maso.
  • Klasifikace může odhalit, že zákazníci, kteří kupovali cibuli, brambory a hamburgerové maso, nakupovali předměty na vaření.
  • Učení kontrastní sady může zjistit, že hlavní rozdíl mezi zákazníky, kteří nakupují na vaření, a těmi, kteří nakupují na výroční večeři, spočívají v tom, že zákazníci získávají předměty na vaření, nakupují cibuli, brambory a hamburgerové maso (a nekupujte foie gras nebo šampaňské).

Léčba učení

Léčba učení je formou váženého kontrastního učení, které vyžaduje jediné žádoucí skupinu a porovná ji se zbývajícími nežádoucí skupiny (úroveň žádoucí úrovně představují vážené třídy).[5] Výsledná „léčba“ naznačuje soubor pravidel, která při použití povedou k požadovanému výsledku.

Léčba učení se liší od standardního učení kontrastní sady prostřednictvím následujících omezení:

  • Spíše než hledat rozdíly mezi všemi skupinami, léčebné učení specifikuje konkrétní skupinu, na kterou se má zaměřit, váží toto požadované seskupení a zbývající skupiny shrnuje do jedné „nežádoucí“ kategorie.
  • Léčba učení se zaměřuje na minimální teorie. V praxi je léčba omezena na maximálně čtyři omezení (tj. Místo toho, aby uvedla všechny důvody, proč se raketa liší od skateboardu, student léčby uvede jeden až čtyři hlavní rozdíly, které předpovídají rakety na vysoké úrovni statistik význam).

Toto zaměření na jednoduchost je důležitým cílem pro studenty léčby. Léčba učení hledá nejmenší změna, která má největší dopad na distribuci třídy.[8]

Koncepčně studenti léčby prozkoumají všechny možné podmnožiny rozsahu hodnot pro všechny atributy. Takové hledání je v praxi často neproveditelné, takže léčba se často zaměřuje na rychlé prořezávání a ignorování rozsahů atributů, které při použití vedou k distribuci třídy, kde je požadovaná třída v menšině.[7]

Příklad: údaje o bydlení v Bostonu

Následující příklad ukazuje výstup učitele léčby TAR3 na datové sadě dat o bydlení z města Boston (netriviální veřejný datový soubor s více než 500 příklady). V této datové sadě se pro každý dům shromažďuje řada faktorů a každý dům je klasifikován podle jeho kvality (nízká, středně nízká, středně vysoká a vysoká). The žádoucí třída je nastavena na „vysokou“ a všechny ostatní třídy jsou spojeny dohromady jako nežádoucí.

Výstup studujícího léčby je následující:

Distribuce základní třídy: nízká: 29% střední: 29% střední: 21% vysoká: 21% Doporučená léčba: [PTRATIO = [12,6..16), RM = [6,7..9,78)] Nová distribuce třídy: nízká: 0% medlow: 0% střední: 3% vysoká: 97%


Bez aplikované léčby (pravidla) představuje požadovaná třída pouze 21% distribuce třídy. Pokud však filtrujeme soubor dat pro domy s 6,7 až 9,78 pokoji a poměrem rodičů a učitelů v sousedství 12,6 až 16, pak 97% zbývajících příkladů spadá do požadované třídy (vysoce kvalitní domy).

Algoritmy

Existuje celá řada algoritmů, které provádějí učení kontrastní sady. Následující podsekce popisují dva příklady.

STUCCO

Žák kontrastní sady STUCCO[1][3] zachází s úkolem učit se ze sad kontrastů jako s vyhledávání stromů problém, kde kořenový uzel stromu je prázdná sada kontrastů. Děti se přidávají specializací sady s dalšími položkami vybranými prostřednictvím kanonického řazení atributů (aby se zabránilo návštěvě stejných uzlů dvakrát). Děti jsou tvořeny připojením výrazů, které se řídí všemi stávajícími výrazy v daném pořadí. Vytvořený strom je prohledáván způsobem na šířku. Vzhledem k uzlům na každé úrovni je datová sada skenována a podpora je počítána pro každou skupinu. Každý uzel se poté prozkoumá, aby se zjistilo, zda je významný a velký, zda by se měl prořezávat a zda by se měly generovat nové podřízené položky. Poté, co jsou lokalizovány všechny významné sady kontrastu, postprocesor vybere podmnožinu, která se zobrazí uživateli - nejprve se zobrazí nižší pořadí, jednodušší výsledky, následované výsledky vyššího řádu, které jsou „překvapivé a výrazně odlišné.[3]"

Výpočet podpory vychází z testování nulové hypotézy, že podpora kontrastní sady je stejná ve všech skupinách (tj. Podpora kontrastní sady je nezávisle na členství ve skupině). Počet podpor pro každou skupinu je hodnota frekvence, kterou lze analyzovat v kontingenční tabulce, kde každý řádek představuje pravdivostní hodnotu sady kontrastu a každá proměnná sloupce označuje frekvenci členství ve skupině. Pokud existuje rozdíl v proporcích mezi frekvencemi kontrastní sady a frekvencemi nulové hypotézy, musí algoritmus poté určit, zda rozdíly v proporcích představují vztah mezi proměnnými, nebo zda je lze připsat náhodným příčinám. To lze určit pomocí a test chí-kvadrát porovnání pozorovaného počtu frekvencí s očekávaným počtem.

Uzly se prořezávají ze stromu, když všechny specializace uzlu nikdy nemohou vést k významné a velké kontrastní sadě. Rozhodnutí o prořezávání je založeno na:

  • Minimální velikost odchylky: Maximální rozdíl mezi podporou libovolných dvou skupin musí být větší než prahová hodnota zadaná uživatelem.
  • Očekávané buněčné frekvence: Očekávané buněčné frekvence kontingenční tabulky se mohou snížit pouze při specializované kontrastní sadě. Pokud jsou tyto frekvence příliš malé, je platnost testu chí-kvadrát porušena.
  • hranice: Horní mez je udržována na rozdělení statistiky vypočítané, když je nulová hypotéza pravdivá. Uzly se prořezávají, když již není možné splnit tuto mezní hodnotu.

TAR3

TAR3[6][9] vážená kontrastní sada žák je založen na dvou základních pojmech - výtah a Podpěra, podpora sady pravidel.

Zvednutím sady pravidel je změna, kterou některé rozhodnutí provede v sadě příkladů po uložení tohoto rozhodnutí (tj. Jak se distribuce tříd posune v reakci na zavedení pravidla). TAR3 hledá nejmenší sadu pravidel, která vyvolá největší změny v součtu vah připojených ke každé třídě vynásobené frekvencí, při které se každá třída vyskytuje. Výtah se vypočítá vydělením skóre sady, ve které je sada pravidel uložena skóre základní sady (tj. Nejsou použita žádná pravidla). Pamatujte, že obrácením funkce bodování výtahu si student TAR3 může také vybrat zbývající třídy a cílovou třídu odmítnout.

Je problematické spoléhat se na zrušení samotného pravidla. Nesprávný nebo zavádějící datový šum, pokud je korelován s neúspěšnými příklady, může mít za následek přeplněnou sadu pravidel. Takový model s vyšší výbavou může mít velké skóre výtahů, ale přesně neodráží převládající podmínky v datové sadě. Aby se zabránilo nadměrnému vybavení, TAR3 využívá prahovou hodnotu podpory a odmítá všechna pravidla, která spadají na nesprávnou stranu této prahové hodnoty. Vzhledem k cílové třídě je prahová hodnota podpory uživatelem zadaná hodnota (obvykle 0,2), která se porovnává s poměrem frekvence cílové třídy, když byla sada pravidel použita na frekvenci dané třídy v celkovém souboru údajů. TAR3 odmítá všechny sady pravidel s podporou nižší než tato prahová hodnota.

Vyžadováním vysokého zdvihu i vysoké hodnoty podpory TAR3 nejen vrací ideální sady pravidel, ale také upřednostňuje menší sady pravidel. Čím méně pravidel bude přijato, tím více důkazů bude existovat na podporu těchto pravidel.

Algoritmus TAR3 vytváří pouze sady pravidel z rozsahů hodnot atributů s vysokou heuristickou hodnotou. Algoritmus určuje, která rozmezí se mají použít, nejprve určením skóre nárůstu hodnotových rozsahů každého atributu. Tato jednotlivá skóre jsou poté tříděna a převedena do kumulativního rozdělení pravděpodobnosti. TAR3 náhodně vybere hodnoty z této distribuce, což znamená, že je nepravděpodobné, že budou vybrány rozsahy s nízkým skóre. K sestavení sady pravidel pro kandidáty je vybráno a kombinováno několik rozsahů. Tyto kandidátské sady pravidel jsou poté hodnoceny a tříděny. Pokud po uživatelem definovaném počtu kol není vidět žádné zlepšení, algoritmus se ukončí a vrátí sady pravidel nejvyššího skóre.

Reference

  1. ^ A b Stephen Bay; Michael Pazzani (2001). „Detekce skupinových rozdílů: Nastavení kontrastu těžby“ (PDF). Těžba dat a vyhledávání znalostí. 5 (3): 213–246. doi:10.1023 / A: 1011429418057. S2CID  2941550.
  2. ^ G.I. Webb; S. Butler; D. Newlands (2003). O detekci rozdílů mezi skupinami. KDD'03 Sborník z deváté mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat.
  3. ^ A b C Stephen Bay; Michael Pazzani (1999). Detekce změny v kategorických datech: dolování kontrastních sad. KDD '99 Sborník z páté mezinárodní konference ACM SIGKDD o objevování znalostí a dolování dat.
  4. ^ C.H. Cai; A.W.C. Fu; C.H. Cheng; W.W. Kwong (1998). Pravidla asociace těžby s váženými položkami (PDF). Proceedings of International Database Engineering and Applications Symposium (IDEAS 98).
  5. ^ A b Y. Hu (2003). Léčba učení: Implementace a aplikace (Diplomová práce). Katedra elektrotechniky, University of British Columbia.
  6. ^ A b K. Gundy-Burlet; J. Schumann; T. Barrett; T. Menzies (2007). Parametrická analýza naváděcích algoritmů ANTARES pomocí pokročilého generování testů a analýzy dat. Na 9. mezinárodním sympoziu o umělé inteligenci, robotice a automatizaci ve vesmíru.
  7. ^ A b Gregory Gay; Tim Menzies; Misty Davies; Karen Gundy-Burlet (2010). "Automatické vyhledání řídicích proměnných pro komplexní chování systému" (PDF). Automatizované softwarové inženýrství. 17 (4).
  8. ^ A b T. Menzies; Y. Hu (2003). „Dolování dat pro velmi zaneprázdněné lidi“ (PDF). Počítač IEEE. 36 (11): 22–29. doi:10.1109 / mc.2003.1244531.
  9. ^ J. Schumann; K. Gundy-Burlet; C. Pasareanu; T. Menzies; A. Barrett (2009). Softwarová podpora V&V pomocí parametrické analýzy velkých simulačních systémů softwaru. Sborník konference IEEE Aerospace Conference z roku 2009.