Matthewsův korelační koeficient - Matthews correlation coefficient - Wikipedia
![]() | Bylo navrženo, že Koeficient Phi být sloučeny do tohoto článku. (Diskutujte) Navrhováno od srpna 2020. |
The Matthewsův korelační koeficient (MCC) nebo koeficient phi se používá v strojové učení jako měřítko kvality binárního (dvoutřídního) klasifikace, představil biochemik Brian W. Matthews v roce 1975.[1] MCC je definován shodně s Pearsonův koeficient phi, představil Karl Pearson,[2][3] také známý jako Yule phi koeficient od jeho zavedení do Udny Yule v roce 1912.[4] Navzdory těmto předchůdcům, kteří předcházeli Matthewsovu použití o několik desetiletí, je pojem MCC široce používán v oblasti bioinformatiky a strojového učení.
Koeficient bere v úvahu pravdivá a falešná pozitiva a negativa a je obecně považován za vyvážené měřítko, které lze použít, i když jsou třídy velmi různých velikostí.[5] MCC je v podstatě korelační koeficient mezi pozorovanou a predikovanou binární klasifikací; vrací hodnotu mezi −1 a +1. Koeficient +1 představuje dokonalou predikci, 0 není lepší než náhodná predikce a −1 označuje celkovou neshodu mezi predikcí a pozorováním. MCC úzce souvisí s statistika chí-kvadrát pro 2 × 2 pohotovostní tabulka
kde n je celkový počet pozorování.
I když neexistuje dokonalý způsob popisu zmatená matice z pravých a falešných pozitiv a negativ o jediné číslo je Matthewsův korelační koeficient obecně považován za jedno z nejlepších takových opatření.[6] Další opatření, jako je podíl správných předpovědí (nazývaných také přesnost ), nejsou užitečné, pokud mají obě třídy velmi rozdílné velikosti. Například přiřazením každého objektu k větší sadě dosáhnete vysokého podílu správných předpovědí, ale není to obecně užitečná klasifikace.
MCC lze vypočítat přímo z zmatená matice pomocí vzorce:
V této rovnici TP je počet skutečná pozitiva, TN počet skutečné negativy, FP počet falešně pozitivní výsledky a FN počet falešné negativy. Pokud je některá ze čtyř součtů ve jmenovateli nulová, jmenovatel může být libovolně nastaven na jednu; výsledkem je Matthewsův korelační koeficient nula, který lze prokázat jako správnou mezní hodnotu.
MCC lze vypočítat podle vzorce:
pomocí pozitivní prediktivní hodnoty, skutečné pozitivní míry, skutečné negativní rychlosti, negativní prediktivní hodnoty, míry falešných objevů, míry falešně negativních, míry falešně pozitivních a míry falešného opomenutí.
Původní vzorec uvedený Matthewsem byl:[1]
To se rovná výše uvedenému vzorci. Jako korelační koeficient, Matthewsův korelační koeficient je geometrický průměr z regresní koeficienty problému a jeho dvojí. Složky regresních koeficientů Matthewsova korelačního koeficientu jsou Značnost (Δp) a Statistika Youdenovy J. (Informovanost nebo Δp ').[6][7] Značnost a Informovanost odpovídají různým směrům toku informací a zobecňují Statistika Youdenovy J., Statistiky p a (jako jejich geometrický průměr) Matthewsův korelační koeficient do více než dvou tříd.[6]
Někteří vědci tvrdí, že Matthewsův korelační koeficient je nejinformativnějším jediným skóre pro stanovení kvality predikce binárního klasifikátoru v kontextu matice zmatků.[8]
Příklad
Vzhledem k ukázce 13 obrázků, 8 koček a 5 psů, kde kočky patří do třídy 1 a psi do třídy 0,
- aktuální = [1,1,1,1,1,1,1,1,1,0,0,0,0,0],
Předpokládejme, že je vyškolen klasifikátor, který rozlišuje mezi kočkami a psy, a pořídíme 13 obrázků a provedeme je přes klasifikátor. Klasifikátor vytvoří 8 přesných předpovědí a zmešká kočky 5: 3 nesprávně předpovězené jako psi (první 3 předpovědi) a 2 psi nesprávně předpovídaní jako kočky (poslední 2 předpovědi).
- předpověď = [0,0,0,1,1,1,1,1,0,0,0,1,1]
S těmito dvěma značenými sadami (aktuální a předpovědi) můžeme vytvořit matici záměny, která shrnuje výsledky testování klasifikátoru:
|
V této matici zmatků z 8 obrázků koček systém usoudil, že 3 jsou psi, az 5 obrázků psů předpověděl, že 2 jsou kočky. Všechny správné předpovědi se nacházejí v úhlopříčce tabulky (zvýrazněné tučně), takže je snadné vizuálně zkontrolovat, zda tabulka neobsahuje chyby předpovědi, protože budou představovány hodnotami mimo úhlopříčku.
Z abstraktního hlediska je matice zmatku následující:
|
kde: P = pozitivní; N = negativní; TP = skutečně pozitivní; FP = Falešně pozitivní; TN = True Negative; FN = falešně negativní.
Zapojení čísel ze vzorce:
MCC = [(5 * 3) - (2 * 3)] / SQRT [(5 + 2) * (5 + 3) * (3 + 2) * (3 + 3)] = 9 / SQRT [1680] = 0,219
Matice zmatku
Zdroje: Fawcett (2006),[9] Powers (2011),[10] Ting (2011),[11] CAWCR,[12] D. Chicco & G. Jurman (2020),[13] Tharwat (2018).[14] |
Pojďme definovat experiment z P pozitivní případy a N negativní případy pro určitý stav. Čtyři výsledky lze formulovat do formátu 2 × 2 pohotovostní tabulka nebo zmatená matice, jak následuje:
Pravdivý stav | ||||||
Celková populace | Podmínka pozitivní | Stav negativní | Prevalence = Σ Podmínka pozitivní/Σ Celkový počet obyvatel | Přesnost (ACC) = Σ True positive + Σ True positive/Σ Celkový počet obyvatel | ||
Předpokládaný stav pozitivní | Opravdu pozitivní | Falešně pozitivní, Chyba typu I. | Pozitivní prediktivní hodnota (PPV), Přesnost = Σ Opravdu pozitivní/Σ Předpokládaný stav pozitivní | Falešná míra objevení (FDR) = Σ Falešně pozitivní/Σ Předpokládaný stav pozitivní | ||
Předpokládaný stav negativní | Falešně negativní, Chyba typu II | Pravda záporná | Míra chybného opomenutí (PRO) = Σ Falešně negativní/Σ Předpovězený stav negativní | Negativní prediktivní hodnota (NPV) = Σ Skutečně negativní/Σ Předpovězený stav negativní | ||
Skutečná kladná sazba (TPR), Odvolání, Citlivost pravděpodobnost detekce, Napájení = Σ Opravdu pozitivní/Σ Podmínka pozitivní | Falešná kladná sazba (FPR), Vypadnout, pravděpodobnost falešného poplachu = Σ Falešně pozitivní/Σ Stav negativní | Poměr pozitivní pravděpodobnosti (LR +) = TPR/FPR | Poměr diagnostických šancí (DOR) = LR +/LR− | F1 skóre = 2 · Přesnost · Připomeňme/Precision + Recall | ||
Falešně negativní sazba (FNR), míra slečny = Σ Falešně negativní/Σ Podmínka pozitivní | Specifičnost (SPC), selektivita, Skutečná záporná sazba (TNR) = Σ Skutečně negativní/Σ Stav negativní | Poměr záporné pravděpodobnosti (LR−) = FNR/TNR |
Pouzdro více tříd
Matthewsův korelační koeficient byl zobecněn na případ více tříd. Tato generalizace se nazývala statistika (pro K různých tříd) podle autora a definovaná pomocí a zmatená matice [15].[16]
Pokud existují více než dva štítky, MCC se již nebude pohybovat mezi -1 a +1. Místo toho bude minimální hodnota mezi -1 a 0 v závislosti na skutečné distribuci. Maximální hodnota je vždy +1.
Tento vzorec lze snáze pochopit definováním přechodných proměnných:[17]
- kolikrát skutečně došlo ke třídě k,
- kolikrát byla předpovězena třída k,
- celkový počet správně předpovězených vzorků,
- celkový počet vzorků. To umožňuje vyjádřit vzorec jako:
Použití výše uvedeného vzorce k výpočtu míry MCC pro predikci Dog & Cat diskutovanou výše, kde je Matice zmatku považována za příklad 2 x Multiclass:
číslo = (8 * 13) - (7 * 8) - (6 * 5) = 18
den = SQRT [(13 ^ 2 - 7 ^ 2 - 6 ^ 2) * (13 ^ 2 - 8 ^ 2 - 5 ^ 2)] = SQRT [6720]
MCC = 18 / 81,975 = 0,219
Výhody MCC oproti přesnosti a skóre F1
Jak vysvětlil Davide Chicco ve svém příspěvku „Deset rychlých tipů pro strojové učení ve výpočetní biologii“ (Těžba biodat, 2017) a Giuseppe Jurman ve své práci „Výhody Matthewsova korelačního koeficientu (MCC) oproti skóre F1 a přesnosti při hodnocení binární klasifikace“ (BMC Genomics, 2020) je Matthewsův korelační koeficient více informativní než skóre F1 a přesnost při hodnocení problémů s binární klasifikací, protože bere v úvahu poměry rovnováhy čtyř kategorií matic zmatenosti (skutečné pozitivy, skutečné negativy, falešné pozitivy, falešné negativy).[8][18]
Bývalý článek vysvětluje, pro Tip 8:
Abyste získali celkovou představu o své predikci, rozhodli jste se využít výhod běžných statistických skóre, například přesnosti a skóre F1.
(Rovnice 1, přesnost: nejhorší hodnota = 0; nejlepší hodnota = 1)
(Rovnice 2, skóre F1: nejhorší hodnota = 0; nejlepší hodnota = 1)
I když se však statistika široce využívá přesnosti a skóre F1, mohou být obě zavádějící, protože při výpočtu konečného skóre plně nezohledňují velikost čtyř tříd matice záměny.
Předpokládejme například, že máte velmi nevyváženou ověřovací sadu vyrobenou ze 100 prvků, z nichž 95 jsou pozitivní prvky a pouze 5 jsou negativní prvky (jak je vysvětleno v Tip 5). Předpokládejme také, že jste udělali nějaké chyby při navrhování a trénování klasifikátoru strojového učení a nyní máte algoritmus, který vždy předpovídá pozitivní výsledek. Představte si, že o tomto problému nevíte.
Použitím vašeho jediného pozitivního prediktoru na vaši nevyváženou sadu ověření tedy získáte hodnoty pro kategorie matice záměny:
TP = 95, FP = 5; TN = 0, FN = 0.
Tyto hodnoty vedou k následujícím skóre výkonu: přesnost = 95% a skóre F1 = 97,44%. Přečtením těchto přehnaně optimistických skóre budete velmi šťastní a budete si myslet, že váš algoritmus strojového učení odvádí vynikající práci. Je zřejmé, že byste byli na špatné cestě.
Naopak, abyste se vyhnuli těmto nebezpečným zavádějícím iluzím, můžete využít další výkonnostní skóre: Matthewsův korelační koeficient [40] (MCC).
(Rovnice 3, MCC: nejhorší hodnota = -1; nejlepší hodnota = +1).
Zvažováním podílu každé třídy matice zmatku v jejím vzorci je její skóre vysoké, pouze pokud si váš klasifikátor vede dobře jak u negativních, tak u pozitivních prvků.
Ve výše uvedeném příkladu by skóre MCC bylo nedefinované (protože TN a FN by byly 0, proto by jmenovatel rovnice 3 byl 0). Zaškrtnutím této hodnoty byste si místo přesnosti a skóre F1 mohli všimnout, že váš klasifikátor jde špatným směrem, a uvědomili byste si, že existují problémy, které byste měli vyřešit, než budete pokračovat.
Zvažte tento další příklad. Spustili jste klasifikaci na stejné datové sadě, která vedla k následujícím hodnotám pro kategorie matice záměny:
TP = 90, FP = 4; TN = 1, FN = 5.
V tomto příkladu klasifikátor fungoval dobře při klasifikaci pozitivních instancí, ale nebyl schopen správně rozpoznat negativní datové prvky. Výsledné skóre F1 a skóre přesnosti by bylo opět extrémně vysoké: přesnost = 91% a skóre F1 = 95,24%. Podobně jako v předchozím případě, pokud by výzkumný pracovník analyzoval pouze tyto dva ukazatele skóre, aniž by zohlednil MCC, mylně by si myslel, že algoritmus plní svůj úkol docela dobře, a měl by iluzi úspěchu.
Na druhou stranu by kontrola Matthewsova korelačního koeficientu byla opět klíčová. V tomto příkladu by hodnota MCC byla 0,14 (rovnice 3), což naznačuje, že algoritmus funguje podobně jako náhodné hádání. Jako alarm by byl MCC schopen informovat odborníka na dolování dat, že statistický model funguje špatně.
Z těchto důvodů důrazně doporučujeme u každého problému s binární klasifikací vyhodnotit výkon každého testu pomocí Matthewsova korelačního koeficientu (MCC) namísto přesnosti a skóre F1.
— Davide Chicco, Deset rychlých tipů pro strojové učení ve výpočetní biologii[8]
Všimněte si, že skóre F1 závisí na tom, která třída je definována jako pozitivní třída. V prvním příkladu výše je skóre F1 vysoké, protože většinová třída je definována jako pozitivní třída. Inverze pozitivních a negativních tříd má za následek následující matici záměny:
TP = 0, FP = 0; TN = 5, FN = 95
To dává skóre F1 = 0%.
MCC nezáleží na tom, která třída je pozitivní, což má výhodu oproti skóre F1, aby se zabránilo nesprávnému definování pozitivní třídy.
Viz také
- Cohenova kappa
- Cramér's V, podobná míra asociace mezi nominálními proměnnými.
- Skóre F1
- Koeficient Phi
- Fowlkes – index slézů
Reference
- ^ A b Matthews, B. W. (1975). "Srovnání predikované a pozorované sekundární struktury fágového lyzozymu T4". Biochimica et Biophysica Acta (BBA) - proteinová struktura. 405 (2): 442–451. doi:10.1016/0005-2795(75)90109-9. PMID 1180967.
- ^ Cramer, H. (1946). Matematické metody statistiky. Princeton: Princeton University Press, str. 282 (druhý odstavec). ISBN 0-691-08004-6
- ^ Datum nejasné, ale před jeho smrtí v roce 1936.
- ^ Yule, G. Udny (1912). „K metodám měření asociace mezi dvěma atributy“. Journal of the Royal Statistical Society. 75 (6): 579–652. doi:10.2307/2340126. JSTOR 2340126.
- ^ Boughorbel, S.B (2017). „Optimální klasifikátor pro nevyvážená data pomocí metriky Matthewsova korelačního koeficientu“. PLOS ONE. 12 (6): e0177678. Bibcode:2017PLoSO..1277678B. doi:10.1371 / journal.pone.0177678. PMC 5456046. PMID 28574989.
- ^ A b C Powers, David M W (2011). „Hodnocení: Od přesnosti, odvolání a měření F k ROC, informovanosti, známosti a korelaci“ (PDF). Journal of Machine Learning Technologies. 2 (1): 37–63.
- ^ Perruchet, P .; Peereman, R. (2004). "Využití distribučních informací při zpracování slabiky". J. Neurolingvistika. 17 (2–3): 97–119. doi:10.1016 / s0911-6044 (03) 00059-9. S2CID 17104364.
- ^ A b C Chicco D (prosinec 2017). „Deset rychlých tipů pro strojové učení ve výpočetní biologii“. Těžba biodat. 10 (35): 35. doi:10.1186 / s13040-017-0155-3. PMC 5721660. PMID 29234465.
- ^ Fawcett, Tom (2006). „Úvod do analýzy ROC“ (PDF). Písmena pro rozpoznávání vzorů. 27 (8): 861–874. doi:10.1016 / j.patrec.2005.10.010.
- ^ Powers, David M W (2011). „Hodnocení: Od přesnosti, odvolání a měření F k ROC, informovanosti, známosti a korelaci“. Journal of Machine Learning Technologies. 2 (1): 37–63.
- ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (eds.). Encyklopedie strojového učení. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26.01.2015). „Společná pracovní skupina WWRP / WGNE pro výzkum ověřování prognóz“. Spolupráce pro australský výzkum počasí a klimatu. Světová meteorologická organizace. Citováno 2019-07-17.
- ^ Chicco D, Jurman G (leden 2020). „Výhody Matthewsova korelačního koeficientu (MCC) oproti skóre F1 a přesnosti při hodnocení binární klasifikace“. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ^ Tharwat A (srpen 2018). „Metody hodnocení klasifikace“. Aplikovaná výpočetní technika a informatika. doi:10.1016 / j.aci.2018.08.003.
- ^ Gorodkin, Jan (2004). Msgstr "Porovnání dvou přiřazení kategorie K pomocí korelačního koeficientu kategorie K". Výpočetní biologie a chemie. 28 (5): 367–374. doi:10.1016 / j.compbiolchem.2004.09.006. PMID 15556477.
- ^ Gorodkin, Jan. „Stránka Rk“. Stránka Rk. Citováno 28. prosince 2016.
- ^ "Matthewův korelační koeficient". scikit-learn.org.
- ^ Chicco D, Jurman G (leden 2020). „Výhody Matthewsova korelačního koeficientu (MCC) oproti skóre F1 a přesnosti při hodnocení binární klasifikace“. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.