Klasifikace dat (Business Intelligence) - Data classification (business intelligence)

v obchodní inteligence, klasifikace dat má úzké vazby na shlukování dat, ale kde je shlukování dat popisný, klasifikace dat je prediktivní.[1][2] Klasifikace dat v podstatě spočívá v použití proměnné se známými hodnotami k předpovědi neznámých nebo budoucích hodnot jiných proměnných. Může být použit např. přímý marketing, pojistný podvod detekce nebo lékařská diagnóza.[2]

Prvním krokem při klasifikaci dat je seskupení soubor dat slouží k tréninku kategorií k vytvoření požadovaného počtu kategorií. An algoritmus, volal klasifikátor, se poté použije na kategorie a pro každou z nich se vytvoří popisný model. Tyto modely lze poté použít ke kategorizaci nových položek ve vytvořeném klasifikačním systému.[1]

Účinnost

Podle Golfarelliho a Rizziho jde o měřítka účinnosti klasifikátoru:[1]

  • Prediktivní přesnost: Jak dobře předpovídá kategorie nových pozorování?
  • Rychlost: Jaké jsou výpočetní náklady na použití klasifikátoru?
  • Robustnost: Jak dobře fungují vytvořené modely, pokud kvalita dat je nízký?
  • Škálovatelnost: Funguje klasifikátor efektivně s velkým množstvím dat?
  • Interpretovatelnost: Jsou výsledky srozumitelné uživatelům?

Typickými příklady vstupu pro klasifikaci dat mohou být proměnné jako např demografie, informace o životním stylu nebo ekonomické chování.

Výzvy

Při práci s klasifikací dat existuje několik výzev. Jedním z nich je zejména to, že je nezbytné pro všechny, kteří používají kategorie na např. zákazníky nebo klienti, aby provedli modelování v iterativním procesu. Tím se zajistí, že změna charakteristik skupin zákazníků nezůstane bez povšimnutí, takže stávající kategorie budou zastaralé a zastaralé, aniž by si toho někdo všiml.

To by mohlo mít zvláštní význam pro pojištění nebo bankovní společnosti, kde detekce podvodů je nesmírně relevantní. Nové vzorce podvodů mohou přijít bez povšimnutí, pokud nebudou vyvinuty a implementovány metody sledování těchto změn a upozornění, když se kategorie mění, mizí nebo se objevují nové.

Reference

  1. ^ A b C Golfarelli, M. & Rizzi, S. (2009). Návrh datového skladu: Moderní principy a metodiky. McGraw-Hill Osburn. ISBN  0-07-161039-1
  2. ^ A b Kimball, R. a kol. (2008). Sada nástrojů životního cyklu datového skladu. (2. vyd.). Wiley. ISBN  0-471-25547-5