Přesnost a odvolání - Precision and recall
v rozpoznávání vzorů, vyhledávání informací a klasifikace (strojové učení), přesnost (také zvaný pozitivní prediktivní hodnota ) je zlomek relevantních instancí mezi načtenými instancemi, zatímco odvolání (také známý jako citlivost ) je zlomek z celkového počtu relevantních instancí, které byly skutečně načteny. Přesnost i odvolání jsou proto založeny na porozumění a míře relevantnost.
Předpokládejme, že počítačový program pro rozpoznávání psů na fotografiích identifikuje 8 psů na obrázku obsahujícím 10 koček a 12 psů (příslušné prvky). Z 8 identifikovaných jako psi, 5 ve skutečnosti jsou psi (skuteční pozitivní), zatímco další 3 jsou kočky (falešné pozitivní). Bylo vynecháno 7 psů (falešné negativy) a 7 koček bylo správně vyloučeno (skutečné negativy). Přesnost programu je 5/8 (skutečná pozitiva / všechna pozitiva), zatímco jeho vyvolání je 5/12 (skutečná pozitiva / relevantní prvky). Když vyhledávač vrací 30 stránek, z nichž pouze 20 bylo relevantních, přičemž nevrátí dalších 40 relevantních stránek, jejich přesnost je 20/30 = 2/3, zatímco jejich vyvolání je 20/60 = 1/3. V tomto případě je tedy přesnost „jak platné jsou výsledky vyhledávání“ a odvolání je „jak úplné jsou výsledky“.
Přijetí přístupu k testování hypotéz od společnosti statistika, ve kterém v tomto případě nulová hypotéza je, že daná položka je irelevantní, tj. ne pes, absence chyby typu I a typu II (tj. perfektní citlivost a specifičnost 100% každý) odpovídá perfektní přesnosti (bez falešně pozitivních) a dokonalému vyvolání (bez falešně negativních).
Obecněji řečeno, odvolání je jednoduše doplněním chybovosti typu II, tj. Jedna minus chybovost typu II. Přesnost souvisí s mírou chyb typu I, ale poněkud komplikovanějším způsobem, protože také závisí na předchozím rozdělení vidění relevantní vs irelevantní položky.
Výše uvedený příklad kočky a psa obsahoval 8 - 5 = 3 chyby typu I pro chybovost typu I 3/10 a 12 - 5 = 7 chyb typu II pro chybovost typu II 7/12. Přesnost lze chápat jako měřítko kvality a vyvolání jako měřítko kvantity. Vyšší přesnost znamená, že algoritmus vrací relevantnější výsledky než irelevantní, a vyšší vyvolání znamená, že algoritmus vrací většinu relevantních výsledků (bez ohledu na to, zda jsou i vráceny irelevantní).
Úvod
v vyhledávání informací, instance jsou dokumenty a úkolem je vrátit sadu relevantních dokumentů s hledaným výrazem. Připomeňme si počet příslušných dokumentů načteno vyhledáváním děleno celkovým počtem stávajících příslušných dokumentů, zatímco přesnost je počet příslušných dokumentů načteno vyhledáváním děleno celkovým počtem získaných dokumentů podle toho hledání.
V klasifikace úkol, přesnost pro třídu je počet skutečných pozitiv (tj. počet položek správně označených jako patřící do pozitivní třídy) děleno celkovým počtem prvků označených jako patřící do pozitivní třídy (tj. součet skutečných pozitiv a falešně pozitivní výsledky, což jsou položky nesprávně označené jako patřící do třídy). Odvolání v této souvislosti je definováno jako počet skutečných pozitiv děleno celkovým počtem prvků, které skutečně patří do pozitivní třídy (tj. součet skutečných pozitiv a falešné negativy, což jsou položky, které nebyly označeny jako patřící do pozitivní třídy, ale měly být).
Při načítání informací znamená dokonalé skóre přesnosti 1,0, že každý výsledek získaný vyhledávání byl relevantní (ale neříká nic o tom, zda byly načteny všechny relevantní dokumenty), zatímco dokonalé skóre vyvolání 1,0 znamená, že všechny relevantní dokumenty byly vyhledány ( ale neříká nic o tom, kolik irelevantních dokumentů bylo také načteno).
V klasifikační úloze znamená skóre přesnosti 1,0 pro třídu C, že každá položka označená jako patřící do třídy C skutečně patří do třídy C (ale neříká nic o počtu položek ze třídy C, které nebyly správně označeny), zatímco odvolání 1,0 znamená, že každá položka ze třídy C byla označena jako patřící do třídy C (ale neříká nic o tom, kolik položek z jiných tříd bylo nesprávně označeno jako patřících do třídy C).
Mezi přesností a odvoláním často existuje inverzní vztah, kde je možné jeden zvýšit za cenu snížení druhého. Ilustrativním příkladem kompromisu je operace mozku. Zvažte mozkového chirurga, který by odstranil rakovinový nádor z mozku pacienta. Chirurg musí odstranit všechny nádorové buňky, protože všechny zbývající rakovinné buňky regenerují nádor. Chirurg naopak nesmí odstraňovat zdravé mozkové buňky, protože by to mělo u pacienta zhoršenou mozkovou funkci. Chirurg může být liberálnější v oblasti mozku, kterou odstraňuje, aby zajistil, že extrahoval všechny rakovinné buňky. Toto rozhodnutí zvyšuje vybavenost, ale snižuje přesnost. Na druhé straně může být chirurg konzervativnější v mozku, který odstraňuje, aby zajistil, že extrahuje pouze rakovinné buňky. Toto rozhodnutí zvyšuje přesnost, ale snižuje odvolání. To znamená, že větší odvolání zvyšuje šance na odstranění zdravých buněk (negativní výsledek) a zvyšuje šance na odstranění všech rakovinných buněk (pozitivní výsledek). Vyšší přesnost snižuje šance na odstranění zdravých buněk (pozitivní výsledek), ale také snižuje šance na odstranění všech rakovinných buněk (negativní výsledek).
O přesnosti a vyvolávacích skóre se obvykle nepojednává samostatně. Místo toho jsou hodnoty pro jednu míru porovnány pro pevnou úroveň u druhé míry (např. přesnost na úrovni vyvolání 0,75) nebo obojí je sloučeno do jednoho opatření. Příklady opatření, která jsou kombinací přesnosti a odvolání, jsou: F-opatření (vážený harmonický průměr přesnosti a odvolání) nebo Matthewsův korelační koeficient, což je geometrický průměr variant s možností opravy: regresní koeficienty Informovanost (DeltaP ') a Značnost (DeltaP).[1][2] Přesnost je vážený aritmetický průměr přesnosti a inverzní přesnosti (vážený zkreslením), stejně jako vážený aritmetický průměr Recall a Inverse Recall (vážený podle prevalence).[1] Inverse Precision a Inverse Recall jsou jednoduše Precision a Recall inverzního problému, kde jsou vyměňovány pozitivní a negativní popisky (jak pro skutečné třídy, tak pro predikční štítky). Recall and Inverse Recall, nebo ekvivalentně pravdivá pozitivní frekvence a falešně pozitivní frekvence, jsou často vyneseny proti sobě jako ROC křivky a poskytují principiální mechanismus k prozkoumání kompromisů provozních bodů. Mimo získávání informací se tvrdí, že aplikace Recall, Precision a F-measure jsou chybné, protože ignorují skutečnou zápornou buňku kontingenční tabulky a lze je snadno manipulovat předpětím předpovědí.[1] První problém je „vyřešen“ pomocí Přesnost a druhý problém je „vyřešen“ diskontováním náhodného komponentu a renormalizací na Cohenova kappa, ale toto již neposkytuje příležitost graficky prozkoumat kompromisy. Nicméně, Informovanost a Značnost jsou Kappa podobné renormalizace Recall a Precision,[3] a jejich geometrický průměr Matthewsův korelační koeficient chová se jako znehodnocené F-opatření.
Definice (kontext vyhledávání informací)
v vyhledávání informací kontexty, přesnost a odvolání jsou definovány pomocí množiny načtené dokumenty (např. seznam dokumentů vytvořených a webový vyhledávač pro dotaz) a sadu související dokumenty (např. seznam všech dokumentů na internetu, které jsou relevantní pro určité téma), srov. relevantnost.[4]
Přesnost
V oblasti vyhledávání informací, přesnost je zlomek načtených dokumentů, které jsou relevantní k dotazu:
Například u textového vyhledávání na sadě dokumentů je přesnost počet správných výsledků děleno počtem všech vrácených výsledků.
Přesnost bere v úvahu všechny načtené dokumenty, ale lze ji také vyhodnotit v dané mezní hodnotě, přičemž se berou v úvahu pouze nejvyšší výsledky vrácené systémem. Toto opatření se nazývá přesnost na n nebo P @ n.
Přesnost se používá s odvoláním, v procentech Všechno relevantní dokumenty, které jsou vráceny vyhledáváním. Obě opatření se někdy v EU používají společně F1 Skóre (nebo f-opatření) k zajištění jediného měření pro systém.
Všimněte si, že význam a použití "přesnosti" v oblasti získávání informací se liší od definice přesnost a preciznost v rámci jiných oborů vědy a techniky.
Odvolání
Při vyhledávání informací je odvolání zlomkem příslušných dokumentů, které jsou úspěšně načteny.
Například pro textové vyhledávání na sadě dokumentů je odvolání počet správných výsledků děleno počtem výsledků, které měly být vráceny.
V binární klasifikaci se volá vyvolání citlivost. Lze na něj pohlížet jako na pravděpodobnost, že je relevantní dokument načten dotazem.
Je triviální dosáhnout 100% odvolání vrácením všech dokumentů v reakci na jakýkoli dotaz. Samotné odvolání tedy nestačí, ale je třeba měřit také počet nerelevantních dokumentů, například také výpočtem přesnosti.
Definice (kontext klasifikace)
Pro úkoly klasifikace termíny skutečná pozitiva, skutečné negativy, falešně pozitivní výsledky, a falešné negativy (vidět Chyby typu I a typu II pro definice) porovnejte výsledky testovaného klasifikátoru s důvěryhodnými externími úsudky. Podmínky pozitivní a negativní odkazují na předpověď klasifikátoru (někdy známá jako očekávání) a podmínky skutečný a Nepravdivé odkazují na to, zda tato předpověď odpovídá vnějšímu úsudku (někdy známému jako pozorování).
Pojďme definovat experiment z P pozitivní případy a N negativní případy pro určitý stav. Čtyři výsledky lze formulovat do formátu 2 × 2 pohotovostní tabulka nebo zmatená matice, jak následuje:
Pravdivý stav | ||||||
Celková populace | Podmínka pozitivní | Stav negativní | Prevalence = Σ Stav pozitivní/Σ Celkový počet obyvatel | Přesnost (ACC) = Σ True positive + Σ True positive/Σ Celkový počet obyvatel | ||
Předpokládaný stav pozitivní | Opravdu pozitivní | Falešně pozitivní, Chyba typu I. | Pozitivní prediktivní hodnota (PPV), Přesnost = Σ Opravdu pozitivní/Σ Předpokládaný stav pozitivní | Falešná míra objevení (FDR) = Σ Falešně pozitivní/Σ Předpokládaný stav pozitivní | ||
Předpokládaný stav negativní | Falešně negativní, Chyba typu II | Pravda záporná | Míra chybného opomenutí (PRO) = Σ Falešně negativní/Σ Předpovězený stav negativní | Negativní prediktivní hodnota (NPV) = Σ Skutečně negativní/Σ Předpovězený stav negativní | ||
Skutečná kladná sazba (TPR), Odvolání, Citlivost pravděpodobnost detekce, Napájení = Σ Opravdu pozitivní/Σ Podmínka pozitivní | Falešná kladná sazba (FPR), Vypadnout, pravděpodobnost falešného poplachu = Σ Falešně pozitivní/Σ Stav negativní | Poměr pozitivní pravděpodobnosti (LR +) = TPR/FPR | Poměr diagnostických šancí (DOR) = LR +/LR− | F1 skóre = 2 · Přesnost · Připomeňme/Precision + Recall | ||
Falešná záporná sazba (FNR), míra slečny = Σ Falešně negativní/Σ Podmínka pozitivní | Specifičnost (SPC), selektivita, Skutečná záporná sazba (TNR) = Σ Skutečně negativní/Σ Stav negativní | Poměr záporné pravděpodobnosti (LR−) = FNR/TNR |
Zdroje: Fawcett (2006),[5] Powers (2011),[6] Ting (2011),[7], CAWCR[8] D. Chicco & G. Jurman (2020),[9] Tharwat (2018).[10] |
Přesnost a vyvolání jsou pak definovány jako:[11]
Připomeňme, že v této souvislosti se také označuje jako skutečná kladná sazba nebo citlivost a přesnost se také označuje jako pozitivní prediktivní hodnota (PPV); další související opatření použitá při klasifikaci zahrnují skutečnou zápornou míru a přesnost.[11] Skutečná záporná sazba se také nazývá specifičnost.
Nevyvážené údaje
Přesnost může být zavádějící metrikou pro nevyvážené datové sady. Zvažte vzorek s 95 negativními a 5 pozitivními hodnotami. Klasifikace všech hodnot jako záporných v tomto případě dává skóre přesnosti 0,95. Existuje mnoho metrik, které tímto problémem netrpí. Například vyvážená přesnost[12] (bACC) normalizuje skutečné pozitivní a skutečné negativní předpovědi počtem pozitivních a negativních vzorků a vydělí jejich součet dvěma:
V předchozím příkladu (95 negativních a 5 pozitivních vzorků) klasifikace všeho jako negativního dává 0,5 vyváženého skóre přesnosti (maximální skóre bACC je jedna), což odpovídá očekávané hodnotě náhodného odhadu ve vyváženém souboru dat. Vyvážená přesnost může sloužit jako metrika celkového výkonu modelu bez ohledu na to, zda jsou skutečné údaje v datech nevyvážené, za předpokladu, že náklady na FN jsou stejné jako u FP.
Další metrikou je predikovaná míra pozitivních podmínek (PPCR), která určuje procento z celkové populace, která je označena. Například pro vyhledávač, který vrátí 30 výsledků (načtené dokumenty) z 1 000 000 dokumentů, je PPCR 0,003%.
Podle Saita a Rehmsmeiera jsou grafy přesného vyvolání při hodnocení binárních klasifikátorů na nevyvážených datech více informativní než grafy ROC. V takových scénářích mohou být grafy ROC vizuálně klamné, pokud jde o závěry o spolehlivosti výkonu klasifikace.[13]
Pravděpodobnostní interpretace
Lze také interpretovat přesnost a vyvolání nikoli jako poměry, ale jako odhady pravděpodobností:[14]
- Přesnost je odhadovaná pravděpodobnost, že je dokument náhodně vybraný ze skupiny načtených dokumentů relevantní.
- Recall je odhadovaná pravděpodobnost, že bude načten dokument náhodně vybraný ze skupiny relevantních dokumentů.
Další interpretace spočívá v tom, že přesnost je průměrná pravděpodobnost relevantního načítání a odvolání je průměrná pravděpodobnost úplného načítání zprůměrovaná na více dotazů na načítání.
F-opatření
Opatření, které kombinuje přesnost a odvolání, je harmonický průměr přesnosti a odvolání, tradiční F-míra nebo vyvážené F-skóre:
Toto opatření je přibližně průměrem obou, jsou-li si blízké, a obecněji je harmonický průměr, který se v případě dvou čísel shoduje s druhou mocninou geometrický průměr děleno aritmetický průměr. Existuje několik důvodů, proč lze F-skóre za určitých okolností kritizovat kvůli jeho zkreslení jako hodnotící metriky.[1] Toto je také známé jako opatření, protože odvolání a přesnost jsou rovnoměrně váženy.
Je to zvláštní případ generála míra (pro nezáporné reálné hodnoty):
Dva další běžně používané opatření jsou míra, kterou váhy připomínají vyšší než přesnost, a opatření, které klade větší důraz na přesnost než na odvolání.
F-míru odvodil van Rijsbergen (1979) "měří účinnost vyhledávání s ohledem na uživatele, který se připojí." je stejně důležité si vzpomenout jako na preciznost. “Vychází z míry účinnosti van Rijsbergena , přičemž druhým členem je vážený harmonický průměr přesnosti a odvolání s váhami . Jejich vztah je kde .
Omezení jako cíle
Existují i další parametry a strategie pro výkonnostní metriku systému získávání informací, například oblast pod ROC křivka (AUC).[15]
Viz také
- Koeficient nejistoty, také zvaný odbornost
- Citlivost a specifičnost
Reference
- ^ A b C d Powers, David M W (2011). „Hodnocení: Od přesnosti, odvolání a měření F k ROC, informovanosti, známosti a korelaci“ (PDF). Journal of Machine Learning Technologies. 2 (1): 37–63. Archivovány od originál (PDF) dne 2019-11-14.
- ^ Perruchet, P .; Peereman, R. (2004). "Využití distribučních informací při zpracování slabiky". J. Neurolingvistika. 17 (2–3): 97–119. doi:10.1016 / s0911-6044 (03) 00059-9. S2CID 17104364.
- ^ Powers, David M. W. (2012). „Problém s Kappou“. Konference evropské kapitoly Asociace pro výpočetní lingvistiku (EACL2012), společný workshop ROBUS-UNSUP.
- ^ * Kent, Allen; Berry, Madeline M .; Luehrs, Jr., Fred U .; Perry, J.W. (1955). "Hledání strojové literatury VIII. Provozní kritéria pro návrh systémů pro vyhledávání informací". Americká dokumentace. 6 (2): 93. doi:10.1002 / asi.5090060209.
- ^ Fawcett, Tom (2006). „Úvod do analýzy ROC“ (PDF). Písmena pro rozpoznávání vzorů. 27 (8): 861–874. doi:10.1016 / j.patrec.2005.10.010.
- ^ Powers, David M W (2011). „Hodnocení: Od přesnosti, odvolání a měření F k ROC, informovanosti, známosti a korelaci“. Journal of Machine Learning Technologies. 2 (1): 37–63.
- ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (eds.). Encyklopedie strojového učení. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26.01.2015). „Společná pracovní skupina WWRP / WGNE pro výzkum ověřování prognóz“. Spolupráce pro australský výzkum počasí a klimatu. Světová meteorologická organizace. Citováno 2019-07-17.
- ^ Chicco D, Jurman G (leden 2020). „Výhody Matthewsova korelačního koeficientu (MCC) oproti skóre F1 a přesnosti při hodnocení binární klasifikace“. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ^ Tharwat A (srpen 2018). „Metody hodnocení klasifikace“. Aplikovaná výpočetní technika a informatika. doi:10.1016 / j.aci.2018.08.003.
- ^ A b Olson, David L .; a Delen, Dursun (2008); Pokročilé techniky dolování dat, Springer, 1. vydání (1. února 2008), strana 138, ISBN 3-540-76916-1
- ^ Sekačka, Jeffrey P. (12.04.2005). „PREP-Mt: prediktivní editor RNA pro rostlinné mitochondriální geny“. BMC bioinformatika. 6: 96. doi:10.1186/1471-2105-6-96. ISSN 1471-2105. PMC 1087475. PMID 15826309.
- ^ Saito, Takaya; Rehmsmeier, Marc (04.03.2015). Brock, Guy (ed.). „Plot Precision-Recall je více informativní než ROC Plot při hodnocení binárních klasifikátorů na nevyvážených datových sadách“. PLOS ONE. 10 (3): e0118432. Bibcode:2015PLoSO..1018432S. doi:10.1371 / journal.pone.0118432. ISSN 1932-6203. PMC 4349800. PMID 25738806. Shrnutí ležel (Březen 2017).
- ^ Fatih Cakir, Kun He, Xide Xia, Brian Kulis, Stan Sclaroff, Deep Metric Learning to Rank, V Proc. Konference IEEE o počítačovém vidění a rozpoznávání vzorů (CVPR), 2019.
- ^ Zygmunt Zając. Co jste chtěli vědět o AUC. http://fastml.com/ what-you-wanted-to-know-about-auc/
- Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). Moderní vyhledávání informací. New York, NY: ACM Press, Addison-Wesley, Seiten 75 a násl. ISBN 0-201-39829-X
- Hjørland, Birger (2010); Základ konceptu relevance, Journal of the American Society for Information Science and Technology, 61 (2), 217-237
- Makhoul, John; Kubala, Francis; Schwartz, Richard; a Weischedel, Ralph (1999); Výkonnostní opatření pro extrakci informací, v Proceedings of DARPA Broadcast News Workshop, Herndon, VA, únor 1999
- van Rijsbergen, Cornelis Joost "Keith" (1979); Načítání informací, Londýn, GB; Boston, MA: Butterworth, 2. vydání, ISBN 0-408-70929-4