Matice zmatku - Confusion matrix
Zdroje: Fawcett (2006),[1] Powers (2011),[2] Ting (2011),[3], CAWCR[4] D. Chicco & G. Jurman (2020),[5] Tharwat (2018).[6] |
V oblasti strojové učení a konkrétně problém statistická klasifikace, a zmatená matice, známá také jako matice chyb,[7] je konkrétní rozložení tabulky, které umožňuje vizualizaci výkonu algoritmu, obvykle a učení pod dohledem jeden (v neřízené učení obvykle se tomu říká a odpovídající matice). Každá řada matice představuje instance v předpovězené třídě, zatímco každý sloupec představuje instance ve skutečné třídě (nebo naopak).[8] Název vychází ze skutečnosti, že usnadňuje zjištění, zda systém zaměňuje dvě třídy (tj. Obvykle nesprávně označuje jednu jako druhou).
Je to zvláštní druh pohotovostní tabulka, se dvěma dimenzemi („skutečná“ a „předpokládaná“) a identickými sadami „tříd“ v obou dimenzích (každá kombinace dimenze a třídy je proměnnou v kontingenční tabulce).
Příklad
Vzhledem k ukázce 13 obrázků, 8 koček a 5 psů, kde kočky patří do třídy 1 a psi do třídy 0,
- aktuální = [1,1,1,1,1,1,1,1,1,0,0,0,0,0],
Předpokládejme, že je vyškolen klasifikátor, který rozlišuje mezi kočkami a psy, a pořídíme 13 obrázků a provedeme je přes klasifikátor. Klasifikátor vytvoří 8 přesných předpovědí a zmešká kočky 5: 3 nesprávně předpovězené jako psi (první 3 předpovědi) a 2 psi nesprávně předpovídaní jako kočky (poslední 2 předpovědi).
- předpověď = [0,0,0,1,1,1,1,1,0,0,0,1,1]
S těmito dvěma značenými sadami (aktuální a předpovědi) můžeme vytvořit matici záměny, která shrnuje výsledky testování klasifikátoru:
|
V této matici zmatků z 8 obrázků koček systém usoudil, že 3 jsou psi, az 5 obrázků psů předpověděl, že 2 jsou kočky. Všechny správné předpovědi se nacházejí v úhlopříčce tabulky (zvýrazněné tučně), takže je snadné vizuálně zkontrolovat, zda tabulka neobsahuje chyby předpovědi, protože budou představovány hodnotami mimo úhlopříčku.
Z abstraktního hlediska je matice zmatku následující:
|
kde: P = pozitivní; N = negativní; TP = skutečně pozitivní; FP = Falešně pozitivní; TN = True Negative; FN = falešně negativní.
Tabulka záměny
v prediktivní analytika, a tabulka zmatku (někdy také nazývaný a zmatená matice) je tabulka se dvěma řádky a dvěma sloupci, která uvádí počet falešně pozitivní výsledky, falešné negativy, skutečná pozitiva, a skutečné negativy. To umožňuje podrobnější analýzu než pouhý podíl správné klasifikace (přesnosti). Přesnost přinese zavádějící výsledky, pokud je soubor dat nevyvážený; to znamená, když se počty pozorování v různých třídách velmi liší. Například pokud v datech bylo 95 koček a pouze 5 psů, konkrétní klasifikátor by mohl klasifikovat všechna pozorování jako kočky. Celková přesnost by byla 95%, ale podrobněji by klasifikátor měl 100% míru rozpoznání (citlivost ) pro třídu koček, ale 0% míra uznání pro třídu psů. Skóre F1 je v takových případech ještě nespolehlivější a zde by přineslo přes 97,4% informovanost odstraní takové zkreslení a získá 0 jako pravděpodobnost informovaného rozhodnutí pro jakoukoli formu hádání (zde vždy hádající kočka).
Podle Davide Chicca a Giuseppe Jurmana je nejinformativnější metrikou k vyhodnocení matice zmatenosti Matthewsův korelační koeficient (MCC).[9]
Za předpokladu výše zmatené matice by její odpovídající tabulka záměny pro třídu koček byla:
Aktuální třída | ||||
---|---|---|---|---|
Kočka | Bez kočky | |||
Předpovězeno třída | Kočka | 5 skutečných pozitiv | 2 falešné pozitivy | |
Bez kočky | 3 falešné negativy | 3 Skutečné negativy |
Konečná tabulka záměny by obsahovala průměrné hodnoty pro všechny třídy dohromady.
Pojďme definovat experiment z P pozitivní případy a N negativní případy pro určitý stav. Čtyři výsledky lze formulovat do formátu 2 × 2 zmatená matice, jak následuje:
Pravdivý stav | ||||||
Celková populace | Podmínka pozitivní | Stav negativní | Prevalence = Σ Stav pozitivní/Σ Celkový počet obyvatel | Přesnost (ACC) = Σ True positive + Σ True positive/Σ Celkový počet obyvatel | ||
Předpokládaný stav pozitivní | Opravdu pozitivní | Falešně pozitivní, Chyba typu I. | Pozitivní prediktivní hodnota (PPV), Přesnost = Σ Opravdu pozitivní/Σ Předpokládaný stav pozitivní | Falešná míra objevení (FDR) = Σ Falešně pozitivní/Σ Předpokládaný stav pozitivní | ||
Předpokládaný stav negativní | Falešně negativní, Chyba typu II | Pravda záporná | Míra chybného opomenutí (PRO) = Σ Falešně negativní/Σ Předpovězený stav negativní | Negativní prediktivní hodnota (NPV) = Σ Skutečně negativní/Σ Předpovězený stav negativní | ||
Skutečná kladná sazba (TPR), Odvolání, Citlivost pravděpodobnost detekce, Napájení = Σ Opravdu pozitivní/Σ Podmínka pozitivní | Falešná kladná sazba (FPR), Vypadnout, pravděpodobnost falešného poplachu = Σ Falešně pozitivní/Σ Stav negativní | Poměr pozitivní pravděpodobnosti (LR +) = TPR/FPR | Poměr diagnostických šancí (DOR) = LR +/LR− | F1 skóre = 2 · Přesnost · Připomeňme/Precision + Recall | ||
Falešně negativní sazba (FNR), míra slečny = Σ Falešně negativní/Σ Podmínka pozitivní | Specifičnost (SPC), selektivita, Skutečná záporná sazba (TNR) = Σ Skutečně negativní/Σ Stav negativní | Poměr záporné pravděpodobnosti (LR−) = FNR/TNR |
Reference
- ^ Fawcett, Tom (2006). „Úvod do analýzy ROC“ (PDF). Písmena pro rozpoznávání vzorů. 27 (8): 861–874. doi:10.1016 / j.patrec.2005.10.010.
- ^ Powers, David M W (2011). „Hodnocení: Od přesnosti, odvolání a měření F k ROC, informovanosti, známosti a korelaci“. Journal of Machine Learning Technologies. 2 (1): 37–63.
- ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (eds.). Encyklopedie strojového učení. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26.01.2015). „Společná pracovní skupina WWRP / WGNE pro výzkum ověřování prognóz“. Spolupráce pro australský výzkum počasí a klimatu. Světová meteorologická organizace. Citováno 2019-07-17.
- ^ Chicco D, Jurman G (leden 2020). „Výhody Matthewsova korelačního koeficientu (MCC) oproti skóre F1 a přesnosti při hodnocení binární klasifikace“. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ^ Tharwat A (srpen 2018). „Metody hodnocení klasifikace“. Aplikovaná výpočetní technika a informatika. doi:10.1016 / j.aci.2018.08.003.
- ^ Stehman, Stephen V. (1997). "Výběr a interpretace měr přesnosti tematické klasifikace". Dálkový průzkum prostředí. 62 (1): 77–89. Bibcode:1997RSEnv..62 ... 77S. doi:10.1016 / S0034-4257 (97) 00083-7.
- ^ Powers, David M W (2011). „Hodnocení: Od přesnosti, odvolání a měření F k ROC, informovanosti, známosti a korelaci“. Journal of Machine Learning Technologies. 2 (1): 37–63. S2CID 55767944.
- ^ Chicco D, Jurman G (leden 2020). „Výhody Matthewsova korelačního koeficientu (MCC) oproti skóre F1 a přesnosti při hodnocení binární klasifikace“. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.