Zlevněný kumulativní zisk - Discounted cumulative gain

Zlevněný kumulativní zisk (DCG) je měřítkem kvality hodnocení. v vyhledávání informací, se často používá k měření účinnosti web vyhledávač algoritmy nebo související aplikace. Používat odstupňovaná relevance škála dokumentů v sadě výsledků vyhledávače, DCG měří užitečnost, nebo získat, dokumentu na základě jeho pozice v seznamu výsledků. Zisk se hromadí od horní části seznamu výsledků dolů, přičemž zisk každého výsledku se diskontuje v nižších řadách.[1]

Přehled

Při použití DCG a souvisejících opatření se vytvářejí dva předpoklady.

  1. Vysoce relevantní dokumenty jsou užitečnější, když se objeví dříve v seznamu výsledků vyhledávače (mají vyšší hodnosti)
  2. Vysoce relevantní dokumenty jsou užitečnější než okrajově relevantní dokumenty, které jsou zase užitečnější než dokumenty, které nejsou relevantní.

DCG pochází z dřívějšího, primitivnějšího opatření zvaného Kumulativní zisk.

Kumulativní zisk

Kumulativní zisk (CG) je součet odstupňovaných hodnot relevance všech výsledků v seznamu výsledků hledání. Tento předchůdce DCG nezahrnuje pořadí (pozici) výsledku v seznamu výsledků do úvahy užitečnosti sady výsledků. CG na konkrétní pozici je definován jako:

Kde je odstupňovaná relevance výsledku na pozici .

Hodnota vypočítaná pomocí funkce CG není ovlivněna změnami v pořadí výsledků vyhledávání. To znamená přesun vysoce relevantního dokumentu nad vyšším, méně relevantním dokumentem nemění vypočítanou hodnotu pro CG (za předpokladu ). Na základě dvou výše uvedených předpokladů o užitečnosti výsledků vyhledávání je obvykle upřednostňován (N) DCG před CG.

Kumulativní zisk se někdy nazývá Graded Precision, protože je identický s metrikou Precision, pokud je stupnice hodnocení binární.

Zvýhodněný kumulativní zisk

Předpokladem DCG je, že vysoce relevantní dokumenty, které se v seznamu výsledků vyhledávání objevují níže, by měly být penalizovány, protože odstupňovaná hodnota relevance je logaritmicky úměrná poloze výsledku.

Tradiční vzorec DCG nashromážděný na určité pozici je definován jako:[1]

Dříve nebylo použití a logaritmický redukční faktor[2] kromě toho, že produkuje hladkou redukci. Ale Wang a kol. (2013)[3] poskytnout teoretickou záruku pro použití logaritmického redukčního faktoru v normalizovaném DCG (NDCG). Autoři ukazují, že pro každou dvojici podstatně odlišných hodnotících funkcí může NDCG konzistentně rozhodnout, která z nich je lepší.

Alternativní formulace DCG[4] klade větší důraz na získávání příslušných dokumentů:

Druhý vzorec se běžně používá v průmyslu, včetně velkých společností pro vyhledávání na webu[5] a soutěžní platformy pro datovou vědu, jako je Kaggle.[6]

Tyto dvě formulace DCG jsou stejné, pokud jsou hodnoty relevance dokumentů binární;[2]:320 .

Všimněte si, že Croft a kol. (2010) a Burges et al. (2005) představují druhý DCG se záznamem základny e, zatímco obě verze DCG výše používají protokol základny 2. Při výpočtu NDCG s první formulací DCG nezáleží na základu záznamu, ale na základu protokol ovlivňuje hodnotu NDCG pro druhou formulaci. Je zřejmé, že základ protokolu ovlivňuje hodnotu DCG v obou formulacích.

Normalizovaný DCG

Seznamy výsledků hledání se liší délkou v závislosti na dotaz. Porovnání výkonu vyhledávače z jednoho dotazu na druhý nelze důsledně dosáhnout pouze pomocí DCG, takže kumulativní zisk na každé pozici pro zvolenou hodnotu by měl být normalizován napříč dotazy. To se děje seřazením všech relevantní dokumenty v korpusu podle jejich relativní relevance, produkující maximální možný DCG prostřednictvím polohy , také nazývaný Ideal DCG (IDCG) prostřednictvím této pozice. Pro dotaz, normalizovaný diskontovaný kumulativní zisk, nebo nDCG, se počítá jako:

,

kde IDCG je ideální diskontovaný kumulativní zisk,

a představuje seznam relevantních dokumentů (seřazených podle jejich relevance) v korpusu až do pozice str.

Hodnoty nDCG pro všechny dotazy lze zprůměrovat, aby se získala míra průměrného výkonu algoritmu hodnocení vyhledávače. Všimněte si, že v algoritmu dokonalého hodnocení je bude stejný jako produkující nDCG 1,0. Všechny výpočty nDCG jsou pak relativními hodnotami v intervalu 0,0 až 1,0, a proto jsou srovnatelné mezi dotazy.

Hlavním problémem při používání nDCG je nedostupnost ideálního uspořádání výsledků, pokud je pouze částečné relevantní zpětná vazba je k dispozici.

Příklad

Účastník experimentu, který je v reakci na vyhledávací dotaz uveden se seznamem dokumentů, je požádán, aby posoudil význam každého dokumentu pro daný dotaz. Každý dokument je třeba posuzovat na stupnici od 0 do 3, přičemž 0 znamená nerelevantní, 3 vysoce relevantní a 1 a 2 „někde mezi“. Pro dokumenty seřazené podle hodnotícího algoritmu jako

uživatel poskytuje následující skóre relevance:

To znamená: dokument 1 má relevanci 3, dokument 2 má relevanci 2 atd. Kumulativní zisk tohoto seznamu výsledků vyhledávání je:

Změna pořadí libovolných dvou dokumentů nemá vliv na míru CG. Li a jsou přepnuty, CG zůstává stejná, 11. DCG se používá ke zdůraznění vysoce relevantních dokumentů, které se objevují na začátku seznamu výsledků. Při použití logaritmické stupnice pro redukci je DCG pro každý výsledek v pořadí:


1313
221.5851.262
3321.5
402.3220
512.5850.387
622.8070.712

Takže tohoto hodnocení je:

Nyní přepínač a vede ke snížení DCG, protože méně relevantní dokument je umístěn v žebříčku výše; to znamená, že relevantnější dokument je více zlevněn tím, že je umístěn do nižší pozice.

Výkon tohoto dotazu na jiný je v této formě nesrovnatelný, protože druhý dotaz může mít více výsledků, což má za následek větší celkový DCG, který nemusí být nutně lepší. Aby bylo možné porovnat, musí být hodnoty DCG normalizovány.

K normalizaci hodnot DCG je potřeba ideální uspořádání pro daný dotaz. V tomto příkladu by toto objednávání bylo monotónně klesá jakési známé rozsudky o relevanci. Předpokládejme, že kromě šesti z tohoto experimentu také existuje dokument se stupněm relevance 3 ke stejnému dotazu a dokumentu s relevancí stupně 2 pro daný dotaz. Ideální objednávka je:

Bez D7 a D8 je ideální objednávka:

DCG tohoto ideálního uspořádání, nebo IDCG (ideální DCG) , se počítá do 6. pozice:

A tak nDCG pro tento dotaz je uveden jako:

Omezení

  1. Normalizovaná metrika DCG netrestá za špatné dokumenty ve výsledku. Například pokud dotaz vrátí dva výsledky se skóre 1,1,1 a 1,1,1,0 oba by byly považovány za stejně dobré, i když druhý obsahuje špatný dokument. Pro hodnocení rozsudků Vynikající, spravedlivé, špatné dalo by se použít číselné skóre 1,0,-1 namísto 2,1,0. To by způsobilo, že by se skóre vrátilo, pokud se vrátí špatné výsledky, a upřednostní přesnost výsledků před odvoláním. Všimněte si, že tento přístup může mít za následek celkové negativní skóre, které by posunulo spodní hranici skóre 0 na zápornou hodnotu.
  2. Normalizovaný DCG nebude penalizovat za chybějící dokumenty ve výsledku. Například pokud dotaz vrátí dva výsledky se skóre 1,1,1 a 1,1,1,1,1 respektive oba by byly považovány za stejně dobré, za předpokladu, že ideální DCG je vypočítán na 3. pozici pro první a na 5. úrovni pro druhou. Jedním ze způsobů, jak zohlednit toto omezení, je vynutit pevnou velikost sady pro sadu výsledků a použít minimální skóre pro chybějící dokumenty. V předchozím příkladu bychom použili skóre 1,1,1,0,0 a 1,1,1,1,1 a uvést nDCG jako nDCG @ 5.
  3. Normalizovaný DCG nemusí být vhodný k měření výkonu dotazů, které mohou často mít několik stejně dobrých výsledků. To platí zejména tehdy, když je tato metrika omezena pouze na několik prvních výsledků, jak je to v praxi. Například pro dotazy jako „restaurace“ nDCG @ 1 bude odpovídat pouze za první výsledek, a tedy pokud jedna sada výsledků obsahuje pouze 1 restauraci z blízké oblasti, zatímco druhá obsahuje 5, oba by skončili se stejným skóre, i když druhý je komplexnější.

Viz také

Reference

  1. ^ A b Kalervo Järvelin, Jaana Kekäläinen: Kumulované hodnocení IR technik na základě zisku. ACM Transactions on Information Systems 20 (4), 422–446 (2002)
  2. ^ A b B. Croft; D. Metzler; T. Strohman (2010). Vyhledávače: Získávání informací v praxi. Addison Wesley.
  3. ^ Yining Wang, Liwei Wang, Yuanzhi Li, Di He, Wei Chen, Tie-Yan Liu. 2013. Teoretická analýza hodnotících opatření normalizovaných diskontovaných kumulativních zisků (NDCG). Ve sborníku z 26. výroční konference o teorii učení (COLT 2013).
  4. ^ Chris Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton a Greg Hullender. 2005. Naučit se hodnotit pomocí gradientního sestupu. Ve sborníku z 22. mezinárodní konference o strojovém učení (ICML '05). ACM, New York, NY, USA, 89-96. DOI = 10.1145 / 1102351.1102363 http://doi.acm.org/10.1145/1102351.1102363
  5. ^ „Úvod do získávání informací - hodnocení“ (PDF). Stanfordská Univerzita. 21. dubna 2013. Citováno 23. března 2014.
  6. ^ „Normalizovaný diskontovaný kumulativní zisk“. Archivovány od originál dne 23. března 2014. Citováno 23. března 2014.