Model pravděpodobnosti dotazu - Query likelihood model
The model pravděpodobnosti dotazu je jazykový model použito v vyhledávání informací. Pro každý dokument v kolekci je vytvořen jazykový model. Pak je možné hodnotit každý dokument podle pravděpodobnosti konkrétních dokumentů, které obdrží dotaz. To je interpretováno jako pravděpodobnost relevantního dokumentu vzhledem k dotazu.
Výpočet pravděpodobnosti
Použitím Bayesovo pravidlo, pravděpodobnost dokumentu , zadaný dotaz lze napsat následovně:
Protože pravděpodobnost dotazu P (q) je pro všechny dokumenty stejná, lze ji ignorovat. Dále je typické předpokládat, že pravděpodobnost dokumentů je jednotná. P (d) je tedy také ignorován.
Dokumenty jsou poté seřazeny podle pravděpodobnosti, že je dotaz pozorován jako náhodný vzorek z modelu dokumentu. K dosažení tohoto cíle se běžně používá multinomický jazykový model unigram. My máme:
- , kde je multinomický koeficient pro dotaz q,
a je délka dotazu q vzhledem k termínu frekvence tf ve slovníku dotazů N.
V praxi je z výpočtu obvykle odstraněn multinomický koeficient. Důvodem je, že je to konstanta pro daný pytel slov (například všechna slova z konkrétního dokumentu ). Jazykový model by měl být skutečný jazykový model vypočítaný z distribuce slov, která jsou základem každého načteného dokumentu. V praxi tento jazykový model není znám, takže se obvykle aproximuje zvážením každého výrazu (unigramu) z načteného dokumentu a jeho pravděpodobnosti výskytu. Tak je pravděpodobnost termínu generované jazykovým modelem dokumentu . Tato pravděpodobnost se znásobí pro všechny výrazy z dotazu získat hodnost pro dokument v intervalu . Výpočet se opakuje pro všechny dokumenty, aby se vytvořilo pořadí všech dokumentů v kolekci dokumentů.
Reference
- ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, strana 241. Cambridge University Press, 2009