F-skóre - F-score - Wikipedia

v statistický analýza binární klasifikace, F-skóre nebo F-opatření je mírou přesnosti testu. Vypočítává se z přesnost a odvolání testu, kde přesnost je počet správně identifikovaných pozitivních výsledků děleno počtem všech pozitivních výsledků, včetně těch, které nebyly správně identifikovány, a odvolání je počet správně identifikovaných pozitivních výsledků děleno počtem všech vzorků, které by měly být byly identifikovány jako pozitivní.
The F1 skóre je harmonický průměr přesnosti a odvolání. Obecnější skóre aplikuje další váhy, přičemž jedno z nich si váží přesnosti nebo vyvolává více než druhé.
Nejvyšší možná hodnota F-skóre je 1, což naznačuje dokonalou přesnost a vyvolání, a nejnižší možná hodnota je 0, pokud je přesnost nebo vyvolání nulové. F1 skóre je také známé jako Sørensen – koeficient kostky nebo Koeficient podobnosti kostek (DSC).[Citace je zapotřebí ]
Etymologie
Název F-measure je považován za pojmenovaný po jiné funkci F v knize Van Rijsbergena, když byl představen na čtvrtém Konference o porozumění zprávám (MUC-4, 1992).[1]
Definice
![]() | Tato sekce potřebuje další citace pro ověření.Prosince 2018) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Tradiční F-míra nebo vyvážené F-skóre (F1 skóre) je harmonický průměr přesnosti a odvolání:
- .
Obecnější skóre F, , který používá pozitivní skutečný faktor β, kde β je zvoleno tak, že vyvolání je považováno za β krát stejně důležité jako přesnost, je:
- .
Ve smyslu Chyby typu I a typu II toto se stává:
- .
Dvě běžně používané hodnoty pro β jsou 2, což váží vyvolání vyšší než přesnost, a 0,5, které váží vyvolání nižší než přesnost.
F-míra byla odvozena tak msgstr "měří efektivitu vyhledávání s ohledem na uživatele, který připisuje β krát větší důležitost k vyvolání jako přesnost".[2] Je to založeno na Van Rijsbergen opatření účinnosti
- .
Jejich vztah je kde .
Diagnostické testování
To souvisí s oborem binární klasifikace kde se odvolání často nazývá „citlivost“.
Pravdivý stav | ||||||
Celková populace | Podmínka pozitivní | Stav negativní | Prevalence = Σ Podmínka pozitivní/Σ Celkový počet obyvatel | Přesnost (ACC) = Σ True positive + Σ True positive/Σ Celkový počet obyvatel | ||
Předpokládaný stav pozitivní | Opravdu pozitivní | Falešně pozitivní, Chyba typu I. | Pozitivní prediktivní hodnota (PPV), Přesnost = Σ Opravdu pozitivní/Σ Předpokládaný stav pozitivní | Falešná míra objevení (FDR) = Σ Falešně pozitivní/Σ Předpokládaný stav pozitivní | ||
Předpokládaný stav negativní | Falešně negativní, Chyba typu II | Pravda záporná | Míra chybného opomenutí (PRO) = Σ Falešně negativní/Σ Předpovězený stav negativní | Negativní prediktivní hodnota (NPV) = Σ Skutečně negativní/Σ Předpovězený stav negativní | ||
Skutečná kladná sazba (TPR), Odvolání, Citlivost pravděpodobnost detekce, Napájení = Σ Opravdu pozitivní/Σ Podmínka pozitivní | Falešná kladná sazba (FPR), Vypadnout, pravděpodobnost falešného poplachu = Σ Falešně pozitivní/Σ Stav negativní | Poměr pozitivní pravděpodobnosti (LR +) = TPR/FPR | Poměr diagnostických šancí (DOR) = LR +/LR− | F1 skóre = 2 · Přesnost · Připomeňme/Precision + Recall | ||
Falešně negativní sazba (FNR), míra slečny = Σ Falešně negativní/Σ Podmínka pozitivní | Specifičnost (SPC), selektivita, Skutečná záporná sazba (TNR) = Σ Skutečně negativní/Σ Stav negativní | Poměr záporné pravděpodobnosti (LR−) = FNR/TNR |
Aplikace
F-skóre se často používá v oblasti vyhledávání informací pro měření Vyhledávání, klasifikace dokumentů, a klasifikace dotazů výkon.[3] Dřívější práce zaměřené především na F1 skóre, ale s rozšířením rozsáhlých vyhledávačů se výkonnostní cíle změnily, aby kladly větší důraz na přesnost nebo odvolání[4] a tak je vidět v široké aplikaci.
F-skóre se také používá v strojové učení.[5] F-opatření však nezohledňují skutečná negativa, proto opatření, jako je Matthewsův korelační koeficient, Informovanost nebo Cohenova kappa může být upřednostňováno pro hodnocení výkonu binárního klasifikátoru.[Citace je zapotřebí ]
F-skóre bylo široce používáno v literatuře pro zpracování přirozeného jazyka,[6] například při hodnocení uznání pojmenované entity a segmentace slov.
Kritika
David Hand a další kritizují rozšířené používání F1 skóre, protože dává stejnou důležitost přesnosti a odvolání. V praxi způsobují různé typy nesprávné klasifikace různé náklady. Jinými slovy, relativní důležitost přesnosti a odvolání je aspektem problému.[7]
Podle Davide Chicco a Giuseppe Jurman, F1 skóre je méně pravdivé a informativní než Matthewsův korelační koeficient (MCC) v klasifikaci binárního hodnocení.[8]
David Powers poukázal na to, že F1 ignoruje True Negatives a je tedy zavádějící pro nevyvážené třídy, zatímco kappa a korelační míry jsou symetrické a hodnotí oba směry předvídatelnosti - klasifikátor předpovídající skutečnou třídu a skutečná třída předpovídající predikci klasifikátoru, navrhující samostatná multiclass míry Informovanost a Značnost pro oba směry s tím, že jejich geometrický průměr je korelace.[9]
Rozdíl od indexu Fowlkes – Mallows
Zatímco F-míra je harmonický průměr odvolání a přesnosti, Fowlkes – index slézů je jejich geometrický průměr.[10]
Rozšíření klasifikace více tříd
F-skóre se také používá k hodnocení klasifikačních problémů s více než dvěma třídami (Klasifikace více tříd ). V tomto nastavení je konečné skóre získáno mikroprůměrováním (ovlivněno frekvencí třídy) nebo makroprůměrováním (přičemž všechny třídy jsou stejně důležité). Pro makroprůměrování uchazeči použili dva různé vzorce: F-skóre (aritmetické) třídní přesnosti a vyvolávacího prostředku nebo aritmetický průměr třídních F-skóre, kde druhý vykazuje žádoucí vlastnosti.[11]
Viz také
- Matice zmatku
- METEOR
- BLEU
- NIST (metrické)
- Provozní charakteristika přijímače
- ROUGE (metrický)
- Koeficient nejistoty, aka Odbornost
- Míra chyb slov
Reference
- ^ Sasaki, Y. (2007). „Pravda o F-opatření“ (PDF).
- ^ Van Rijsbergen, C. J. (1979). Načítání informací (2. vyd.). Butterworth-Heinemann.
- ^ Beitzel., Steven M. (2006). O porozumění a klasifikaci webových dotazů (Disertační práce). IIT. CiteSeerX 10.1.1.127.634.
- ^ X. Li; Y.-Y. Wang; A. Acero (červenec 2008). Učení záměru dotazu z regularizovaných grafů kliknutí. Sborník z 31. konference SIGIR. doi:10.1145/1390334.1390393. S2CID 8482989.
- ^ Viz např. Hodnocení [1].
- ^ Derczynski, L. (2016). Komplementarita, F-skóre a hodnocení NLP. Sborník z mezinárodní konference o jazykových zdrojích a hodnocení.
- ^ Ruka, Davide. „Poznámka k použití F-míry pro vyhodnocení algoritmů propojení záznamu - Dimenze“. app.dimensions.ai. doi:10.1007 / s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Citováno 2018-12-08.
- ^ Chicco D, Jurman G (leden 2020). „Výhody Matthewsova korelačního koeficientu (MCC) oproti skóre F1 a přesnosti při hodnocení binární klasifikace“. BMC Genomics. 21 (6): 6. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ^ Powers, David M W (2011). „Hodnocení: Od přesnosti, odvolání a skóre F k ROC, informovanosti, známosti a korelaci“. Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.
- ^ Tharwat A (srpen 2018). „Metody hodnocení klasifikace“. Aplikovaná výpočetní technika a informatika (před tiskem). doi:10.1016 / j.aci.2018.08.003.
- ^ J. Opitz; Burst (2019). "Makro F1 a Makro F1". arXiv:1911.03347 [stat.ML ].