Diskretizace spojitých funkcí - Discretization of continuous features

v statistika a strojové učení, diskretizace odkazuje na proces kontinuální konverze nebo rozdělení atributy, funkce nebo proměnné na diskretizaci nebo nominální atributy / vlastnosti / proměnné /intervaly. To může být užitečné při vytváření hromadných funkcí pravděpodobnosti - formálně v odhad hustoty. Je to forma diskretizace obecně a také z binning, jako při výrobě histogram. Kdykoli kontinuální data jsou diskretizována, vždy existuje určité množství diskretizační chyba. Cílem je snížit částku na uvažovanou úroveň zanedbatelný pro modelování účely po ruce.

Data se obvykle rozlišují do oddílů K. stejné délky / šířky (stejné intervaly) nebo K% z celkových dat (stejné frekvence).[1]

Mezi mechanismy pro diskretizaci kontinuálních dat patří Fayyad & Íránská metoda MDL,[2] který používá vzájemné informace rekurzivně definovat nejlepší koše, CAIM, CACC, Ameva a mnoho dalších[3]

Je známo mnoho algoritmů strojového učení, které vytvářejí lepší modely diskretizací spojitých atributů.[4]

Software

Toto je částečný seznam softwaru, který implementuje MDL algoritmus.

Viz také

Reference

  1. ^ Clarke, E. J .; Barton, B. A. (2000). „Entropie a MDL diskretizace spojitých proměnných pro sítě Bayesovské víry“ (PDF). International Journal of Intelligent Systems. 15: 61–92. doi:10.1002 / (SICI) 1098-111X (200001) 15: 1 <61 :: AID-INT4> 3.0.CO; 2-O. Citováno 2008-07-10.
  2. ^ Fayyad, Usama M .; Irani, Keki B. (1993) „Víceintervalová diskretizace atributů s kontinuální hodnotou pro učení klasifikace“ (PDF). hdl:2014/35171., Proc. 13. Int. Společná konf. o umělé inteligenci (Q334 .I571 1993), str. 1022-1027
  3. ^ Dougherty, J .; Kohavi, R.; Sahami, M. (1995). "Diskrétizace kontinuálních funkcí pod dohledem a bez dohledu ". In A. Prieditis & S. J. Russell, eds. Práce. Morgan Kaufmann, str. 194-202
  4. ^ Kotsiantis, S .; Kanellopoulos, D (2006). „Diskretizační techniky: nedávný průzkum“. GESTS Mezinárodní transakce v informatice a inženýrství. 32 (1): 47–58. CiteSeerX  10.1.1.109.3084.