Markovská diskriminace - Markovian discrimination
![]() | tento článek poskytuje nedostatečný kontext osobám, které toto téma neznají.Červenec 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Markovská diskriminace ve filtrování spamu je metoda používaná v CRM114 a další filtry nevyžádané pošty k přesnějšímu modelování statistického chování nevyžádané pošty a nevyžádané pošty než jednoduše Bayesovské metody. Jednoduchý bayesovský model psaného textu obsahuje pouze slovník právnických slov a jejich relativní pravděpodobnosti. Markovianův model přidává relativní pravděpodobnosti přechodu, které dané slovo předpovídají, jaké bude další slovo. Je založen na teorii Markovovy řetězy podle Andrey Markov, odtud název. V podstatě funguje Bayesiánský filtr pouze na jednotlivá slova, zatímco Markovianův filtr funguje na fráze nebo celé věty.
Existují dva typy Markovovy modely; viditelný Markovův model a skrytý Markovův model nebo HMM. Rozdíl spočívá v tom, že u viditelného Markovova modelu se za aktuální slovo považuje celý stav jazykového modelu, zatímco skrytý Markovův model stav skryje a předpokládá pouze to, že aktuální slovo pravděpodobně souvisí se skutečným interním stav jazyka.
Například ve viditelném Markovově modelu by slovo „the“ mělo přesně předpovídat následující slovo, zatímco ve skrytém Markovově modelu celý předchozí text implikuje skutečný stav a předpovídá následující slova, ale ve skutečnosti tento stav nebo předpověď nezaručuje. Vzhledem k tomu, že v případě filtrování spamu se jedná o druhý případ, téměř vždy se používají skryté Markovovy modely. Zejména z důvodu omezení úložiště specifický typ skrytého Markovova modelu zvaného a Markovovo náhodné pole je obzvláště použitelné, obvykle s velikostí kliky mezi čtyřmi a šesti žetony.
Viz také
![]() | Tento článek obsahuje a seznam doporučení, související čtení nebo externí odkazy, ale jeho zdroje zůstávají nejasné, protože mu chybí vložené citace.Listopad 2010) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
![]() | tento článek potřebuje další citace pro ověření.Červenec 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Reference
- Chhabra, S., Yerazunis, W. S. a Siefkes, C. 2004. Filtrování spamu pomocí modelu náhodného pole Markov s schématy variabilního vážení. Ve sborníku ze čtvrté mezinárodní konference IEEE o dolování dat (1. – 4. Listopadu 2004). ICDM. IEEE Computer Society, Washington, DC, Mazharul