Model pravděpodobnosti dotazu - Query likelihood model

The model pravděpodobnosti dotazu je jazykový model použito v vyhledávání informací. Pro každý dokument v kolekci je vytvořen jazykový model. Pak je možné hodnotit každý dokument podle pravděpodobnosti konkrétních dokumentů, které obdrží dotaz. To je interpretováno jako pravděpodobnost relevantního dokumentu vzhledem k dotazu.

Výpočet pravděpodobnosti

Použitím Bayesovo pravidlo, pravděpodobnost dokumentu , zadaný dotaz lze napsat následovně:

Protože pravděpodobnost dotazu P (q) je pro všechny dokumenty stejná, lze ji ignorovat. Dále je typické předpokládat, že pravděpodobnost dokumentů je jednotná. P (d) je tedy také ignorován.

Dokumenty jsou poté seřazeny podle pravděpodobnosti, že je dotaz pozorován jako náhodný vzorek z modelu dokumentu. K dosažení tohoto cíle se běžně používá multinomický jazykový model unigram. My máme:

, kde je multinomický koeficient pro dotaz q,

a je délka dotazu q vzhledem k termínu frekvence tf ve slovníku dotazů N.

V praxi je z výpočtu obvykle odstraněn multinomický koeficient. Důvodem je, že je to konstanta pro daný pytel slov (například všechna slova z konkrétního dokumentu ). Jazykový model by měl být skutečný jazykový model vypočítaný z distribuce slov, která jsou základem každého načteného dokumentu. V praxi tento jazykový model není znám, takže se obvykle aproximuje zvážením každého výrazu (unigramu) z načteného dokumentu a jeho pravděpodobnosti výskytu. Tak je pravděpodobnost termínu generované jazykovým modelem dokumentu . Tato pravděpodobnost se znásobí pro všechny výrazy z dotazu získat hodnost pro dokument v intervalu . Výpočet se opakuje pro všechny dokumenty, aby se vytvořilo pořadí všech dokumentů v kolekci dokumentů.

[1]

Reference

  1. ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, strana 241. Cambridge University Press, 2009