Hodnotící opatření (získávání informací) - Evaluation measures (information retrieval)
Hodnotící opatření pro systém vyhledávání informací se používají k posouzení, jak dobře výsledky hledání uspokojily záměr dotazu uživatele. Takové metriky se často dělí na druhy: online metriky se dívají na interakce uživatelů s vyhledávacím systémem, zatímco offline metriky měří relevanci, jinými slovy, jak pravděpodobné jsou jednotlivé výsledky, nebo stránka s výsledky vyhledávače Stránka (SERP) jako celek má uspokojovat informační potřeby uživatele.
Zápis
Matematické symboly použité ve vzorcích níže znamenají:
- - Průsečík - v tomto případě s uvedením dokumentů v oba nastavuje X a Y.
- - Mohutnost - v tomto případě počet dokumentů v sadě X
- - Integrální
- - Shrnutí
- - Symetrický rozdíl
Online metriky
Online metriky se obvykle vytvářejí z protokolů vyhledávání. Metriky se často používají k určení úspěchu A / B test.
Míra opuštění relace
Míra opuštění relace je poměr relací vyhledávání, které nevedou ke kliknutí.
Míra prokliku
Míra prokliku (CTR) je poměr uživatelů, kteří kliknou na konkrétní odkaz, k celkovému počtu uživatelů, kteří si prohlížejí stránku, e-mail nebo reklamu. To se běžně používá k měření úspěchu internetová reklama kampaň pro konkrétní web a také účinnost e-mailových kampaní.[1]
Míra úspěšnosti relace
Míra úspěšnosti relace měří poměr relací uživatelů, které vedou k úspěchu. Definování „úspěchu“ často závisí na kontextu, ale při hledání se úspěšný výsledek často měří pomocí doba setrvání jako primární faktor spolu se sekundární interakcí s uživatelem se například uživatel kopírující adresu URL výsledku považuje za úspěšný výsledek, stejně jako kopírování / vkládání z úryvku.
Nulová míra výsledků
Nulová míra výsledků (ZRR) je poměr SERP, které se vrátily s nulovými výsledky. Metrika označuje buď a odvolání problém nebo že hledané informace nejsou v indexu.
Offline metriky
Offline metriky se obvykle vytvářejí z relací posuzování relevance, kde rozhodčí hodnotí kvalitu výsledků vyhledávání. K hodnocení každého dokumentu vráceného v odpovědi na dotaz lze použít jak binární (relevantní / nerelevantní), tak víceúrovňové (např. Relevance od 0 do 5) stupnice. V praxi mohou být dotazy špatně pózoval a mohou existovat různé relevantní odstíny. Například v dotazu „mars“ existuje nejednoznačnost: soudce neví, zda uživatel hledá planetu Mars, Mars čokoládová tyčinka nebo zpěvák Bruno Mars.
Přesnost
Přesnost je zlomek načtených dokumentů, které jsou relevantní podle potřeby uživatele.
v binární klasifikace, přesnost je obdobou pozitivní prediktivní hodnota. Přesnost zohledňuje všechny načtené dokumenty. Lze jej také vyhodnotit v dané mezní hodnosti, přičemž se berou v úvahu pouze nejvyšší výsledky vrácené systémem. Toto opatření se nazývá přesnost na n nebo P @ n.
Všimněte si, že význam a použití "přesnosti" v oblasti získávání informací se liší od definice přesnost a preciznost v rámci jiných vědních oborů a statistika.
Odvolání
Recall je zlomek dokumentů, které jsou relevantní pro dotaz a které jsou úspěšně načteny.
V binární klasifikaci se často nazývá odvolání citlivost. Lze na to tedy pohlížet jako pravděpodobnost, že se relevantní dokument načte dotazem.
Je triviální dosáhnout 100% odvolání vrácením všech dokumentů v reakci na jakýkoli dotaz. Samotné odvolání tedy nestačí, ale je třeba měřit také počet nerelevantních dokumentů, například výpočtem přesnosti.
Vypadnout
Podíl nerelevantních dokumentů, které se načtou ze všech dostupných nerelevantních dokumentů:
V binární klasifikaci spadání úzce souvisí s specifičnost a rovná se . Dá se na to dívat jako pravděpodobnost, že se dotazem načte nerelevantní dokument.
Je triviální dosáhnout poklesu o 0% vrácením nulových dokumentů v reakci na jakýkoli dotaz.
F-skóre / F-měření
Vážený harmonický průměr přesnosti a odvolání je tradiční F-míra nebo vyvážené F-skóre:
Toto je také známé jako opatření, protože odvolání a přesnost jsou rovnoměrně váženy.
Obecný vzorec pro nezáporné reálné je:
Dvě další běžně používaná opatření F jsou: míra, kterou váhy připomínají dvakrát více než přesnost, a míra, která váží přesnost dvakrát více než vyvolání.
Míra F byla odvozena van Rijsbergenem (1979) "měří účinnost vyhledávání s ohledem na uživatele, který se připojí." je stejně důležité si vzpomenout jako na preciznost. “Vychází z míry účinnosti van Rijsbergena . Jejich vztah je:
- kde
F-míra může být lepší samostatnou metrikou ve srovnání s přesností a vyvoláním; přesnost i odvolání poskytují různé informace, které se mohou vzájemně doplňovat, když jsou kombinovány. Pokud jeden z nich vyniká více než druhý, bude to odrážet F-opatření.[2]
Průměrná přesnost
Přesnost a odvolání jsou metriky s jednou hodnotou založené na celém seznamu dokumentů vrácených systémem. U systémů, které vracejí seřazenou sekvenci dokumentů, je žádoucí vzít v úvahu také pořadí, v jakém jsou vrácené dokumenty prezentovány. Výpočtem přesnosti a vyvolání na každé pozici v seřazené posloupnosti dokumentů lze vykreslit křivku přesného vyvolání a vykreslit přesnost jako funkce vyvolání . Průměrná přesnost vypočítá průměrnou hodnotu v intervalu od na :[3]
To je oblast pod křivkou precizního vyvolání. Tento integrál je v praxi nahrazen konečným součtem na každé pozici v seřazeném pořadí dokumentů:
kde je pořadí v pořadí získaných dokumentů, je počet načtených dokumentů, je přesnost při cut-off v seznamu a je změna stažení z položek na .[3]
Tato konečná suma odpovídá:
kde je funkce ukazatele rovna 1, pokud je položka v pořadí je relevantní dokument, jinak nula.[4] Všimněte si, že průměr přesahuje všechny relevantní dokumenty a příslušné dokumenty, které nebyly načteny, získají skóre přesnosti nula.
Někteří autoři se rozhodli interpolovat funkce pro snížení dopadu „kroucení“ na křivku.[5][6] Například výzva PASCAL Visual Object Classes (měřítko pro detekci objektů počítačového vidění) do roku 2010[7] vypočítal průměrnou přesnost zprůměrováním přesnosti na množině rovnoměrně rozložených úrovní vyvolání {0, 0,1, 0,2, ... 1,0}:[5][6]
kde je interpolovaná přesnost, která přebírá maximální přesnost u všech vyvolání větší než :
- .
Alternativou je odvodit analytický funkce předpokládáním konkrétní parametrické distribuce pro základní rozhodovací hodnoty. Například a binormální křivka přesného vyvolání lze získat převzetím rozhodovacích hodnot v obou třídách podle Gaussova rozdělení.[8]
Přesnost v K
U moderního (webového) vyhledávání informací již není odvolání smysluplnou metrikou, protože mnoho dotazů má tisíce relevantních dokumentů a jen málo uživatelů bude mít zájem si je všechny přečíst. Přesnost at k documents (P @ k) is still a useful metric (eg, P @ 10 or "Precision at 10" corresponds to the number of relevant results within the top 10 documents), but un-into zohľadnit pozice příslušných dokumenty mezi nejlepšími k.[9] Dalším nedostatkem je, že u dotazu s méně relevantními výsledky než k bude mít i dokonalý systém skóre menší než 1.[10] Je snazší skórovat ručně, protože je třeba zkoumat pouze nejvyšší k výsledky, aby se zjistilo, zda jsou relevantní nebo ne.
R-Precision
Přesnost R vyžaduje znalost všech dokumentů, které jsou relevantní pro dotaz. Počet příslušných dokumentů, , se používá jako mezní hodnota pro výpočet, a to se liší od dotazu k dotazu. Například pokud v korpusu existuje 15 dokumentů relevantních pro „červenou“ (R = 15), R-přesnost pro „červenou“ prohlédne 15 nejlepších vrácených dokumentů, spočítá počet relevantních dokumentů to změní na zlomek relevance: .[11]
Přesnost se rovná vyvolání na R-tá pozice.[10]
Empiricky je toto opatření často vysoce korelované s průměrnou přesností.[10]
Průměrná průměrná přesnost
Průměrná průměrná přesnost pro sadu dotazů je průměr průměrných skóre přesnosti pro každý dotaz.
kde Q je počet dotazů.
Zlevněný kumulativní zisk
Zdroje: Fawcett (2006),[12] Powers (2011),[13] Ting (2011),[14] CAWCR,[15] D. Chicco & G. Jurman (2020),[16] Tharwat (2018).[17] |
DCG používá odstupňovanou stupnici relevance dokumentů ze sady výsledků k vyhodnocení užitečnosti nebo zisku dokumentu na základě jeho polohy v seznamu výsledků. Předpokladem DCG je, že vysoce relevantní dokumenty, které se v seznamu výsledků vyhledávání objevují níže, by měly být penalizovány, protože odstupňovaná hodnota relevance je logaritmicky úměrná poloze výsledku.
DCG nashromáždil na konkrétní pozici pozici je definován jako:
Vzhledem k tomu, že se sada výsledků může u různých dotazů nebo systémů lišit, používá normalizovaná verze DCG ideální DCG. Za tímto účelem třídí dokumenty seznamu výsledků podle relevance a vytváří ideální DCG na pozici p (), který normalizuje skóre:
Hodnoty nDCG pro všechny dotazy lze zprůměrovat, aby se získala míra průměrného výkonu hodnotícího algoritmu. Všimněte si, že v algoritmu dokonalého hodnocení je bude stejný jako produkující nDCG 1,0. Všechny výpočty nDCG jsou pak relativními hodnotami v intervalu 0,0 až 1,0, a proto jsou srovnatelné mezi dotazy.
Další opatření
- Střední vzájemná hodnost
- Spearmanovův korelační koeficient
- bpref - součtová míra počtu relevantních dokumentů seřazených před irelevantní dokumenty[11]
- GMAP - geometrický průměr průměrné přesnosti (na téma)[11]
- Opatření založená na marginální relevanci a rozmanitosti dokumentů - viz Relevance (vyhledávání informací) § Problémy a alternativy
- Míra relevance a důvěryhodnosti (pro falešné zprávy ve výsledcích vyhledávání)[18]
Vizualizace
Vizualizace výkonu načítání informací zahrnují:
- Grafy, které mapují přesnost na jedné ose a vyvolávají na druhé[11]
- Histogramy průměrné přesnosti u různých témat[11]
- Provozní charakteristika přijímače (Křivka ROC)
- Matice zmatku
Nemetrické
Seznam nejdůležitějších dotazů
Nejčastější dotazy zaznamenávají nejběžnější dotazy po pevně stanovenou dobu. Seznam nejvyšších dotazů pomáhá znát styl dotazů zadaných uživateli.
Metriky irelevance
Dotazy za čas
Měření počtu dotazů prováděných ve vyhledávacím systému za (měsíc / den / hodina / minuta / s) sleduje využití vyhledávacího systému. Lze jej použít pro diagnostiku k označení neočekávaného nárůstu v dotazech, nebo jednoduše jako základ při porovnávání s jinými metrikami, jako je latence dotazu. Například špička v provozu dotazu může být použita k vysvětlení špičky v latenci dotazu.
Viz také
Reference
- ^ Americká marketingová asociace Slovník. [1] Citováno 2012-11-02. The Marketing Standards Accountability Standards Board (MASB) podporuje tuto definici jako součást její probíhající Společný jazyk v marketingovém projektu.
- ^ Powers, D.M.W (2011). „HODNOCENÍ: OD PŘESNOSTI, PŘIPOMÍNAJÍCÍ A F-OPATŘENÍ K ROCI, INFORMOVATELNOSTI, OZNAČENÍ A KORELÁCI“ (PDF). Journal of Machine Learning Technologies. 2, 1: 37–63.
- ^ A b Zhu, Mu (2004). „Odvolání, přesnost a průměrná přesnost“ (PDF). Archivovány od originál (PDF) dne 04.05.2011. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Turpin, Andrew; Scholer, Falk (2006). Uživatelský výkon versus přesná opatření pro jednoduché vyhledávací úlohy. Sborník z 29. výroční mezinárodní konference ACM SIGIR o výzkumu a vývoji v oblasti získávání informací (Seattle, WA, 6. – 11. Srpna 2006). New York, NY: ACM. str.11–18. CiteSeerX 10.1.1.533.4100. doi:10.1145/1148170.1148176. ISBN 978-1-59593-369-0. S2CID 9810253.
- ^ A b Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I .; Winn, John; Zisserman, Andrew (červen 2010). „Výzva PASCAL Visual Object Classes (VOC)“ (PDF). International Journal of Computer Vision. 88 (2): 303–338. doi:10.1007 / s11263-009-0275-4. S2CID 4246903. Archivovány od originál (PDF) dne 2011-11-20. Citováno 2011-08-29.
- ^ A b Manning, Christopher D .; Raghavan, Prabhakar; Schütze, Hinrich (2008). Úvod do získávání informací. Cambridge University Press.
- ^ „Vývojová sada PASCAL Visual Object Classes Challenge 2012 (VOC2012)“. host.robots.ox.ac.uk. Citováno 2019-03-23.
- ^ K.H. Brodersen, C.S. Ong, K.E. Stephan, J.M. Buhmann (2010). Binormální předpoklad o křivkách přesného vyvolání Archivováno 8. prosince 2012, v Wayback Machine. Sborník příspěvků z 20. mezinárodní konference o rozpoznávání vzorů, 4263-4266.
- ^ Kalervo, J ~ irvelin (2017). „Metody hodnocení IR pro získávání vysoce relevantních dokumentů“ (PDF). Fórum ACM SIGIR. 51, 2: 243–250.
- ^ A b C Christopher D. Manning; Prabhakar Raghavan a Hinrich Schütze (2009). „Kapitola 8: Vyhodnocení při získávání informací“ (PDF). Citováno 2015-06-14. Část Úvod do získávání informací [2]
- ^ A b C d E http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf
- ^ Fawcett, Tom (2006). „Úvod do analýzy ROC“ (PDF). Písmena pro rozpoznávání vzorů. 27 (8): 861–874. doi:10.1016 / j.patrec.2005.10.010.
- ^ Powers, David M W (2011). „Hodnocení: Od přesnosti, odvolání a měření F k ROC, informovanosti, známosti a korelaci“. Journal of Machine Learning Technologies. 2 (1): 37–63.
- ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (eds.). Encyklopedie strojového učení. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26.01.2015). „Společná pracovní skupina WWRP / WGNE pro výzkum ověřování prognóz“. Spolupráce pro australský výzkum počasí a klimatu. Světová meteorologická organizace. Citováno 2019-07-17.
- ^ Chicco D, Jurman G (leden 2020). „Výhody Matthewsova korelačního koeficientu (MCC) oproti skóre F1 a přesnosti při hodnocení binární klasifikace“. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ^ Tharwat A (srpen 2018). „Metody hodnocení klasifikace“. Aplikovaná výpočetní technika a informatika. doi:10.1016 / j.aci.2018.08.003.
- ^ C. Lioma; J. G. Simonsen; Larsen (2017). „Hodnotící opatření pro relevanci a důvěryhodnost v hodnocených seznamech“ (PDF). Sborník mezinárodní konference ACM SIGIR o teorii získávání informací, 91-98.