Model pravděpodobnosti dotazu - Query likelihood model

The model pravděpodobnosti dotazu je jazykový model použito v vyhledávání informací. Pro každý dokument v kolekci je vytvořen jazykový model. Pak je možné hodnotit každý dokument podle pravděpodobnosti konkrétních dokumentů, které obdrží dotaz. To je interpretováno jako pravděpodobnost relevantního dokumentu vzhledem k dotazu.

Výpočet pravděpodobnosti

Použitím Bayesovo pravidlo, pravděpodobnost ${ displaystyle P}$ dokumentu ${ displaystyle d}$ , zadaný dotaz ${ displaystyle q}$ lze napsat následovně:

{ displaystyle P (d | q) = { frac {P (q | d) P (d)} {P (q)}}}

Protože pravděpodobnost dotazu P (q) je pro všechny dokumenty stejná, lze ji ignorovat. Dále je typické předpokládat, že pravděpodobnost dokumentů je jednotná. P (d) je tedy také ignorován.

{ displaystyle P (d | q) = P (q | d)}

Dokumenty jsou poté seřazeny podle pravděpodobnosti, že je dotaz pozorován jako náhodný vzorek z modelu dokumentu. K dosažení tohoto cíle se běžně používá multinomický jazykový model unigram. My máme:

{ displaystyle P (q | M_ {d}) = K_ {q} prod _ {t ve V} P (t | M_ {d}) ^ {tf_ {t, q}}}

, kde je multinomický koeficient

{ displaystyle K_ {q} = L_ {q}! / (tf_ {t1, q}! tf_ {t2, q}! ... tf_ {tN, q}!)}

pro dotaz

q

,

a ${ displaystyle L_ {q} = součet _ {1 leq i leq N} tf_ {t_ {i}, q}}$ je délka dotazu $q$ vzhledem k termínu frekvence $tf$ ve slovníku dotazů $N$ .

V praxi je z výpočtu obvykle odstraněn multinomický koeficient. Důvodem je, že je to konstanta pro daný pytel slov (například všechna slova z konkrétního dokumentu ${ displaystyle d}$ ). Jazykový model ${ displaystyle M_ {d}}$ by měl být skutečný jazykový model vypočítaný z distribuce slov, která jsou základem každého načteného dokumentu. V praxi tento jazykový model není znám, takže se obvykle aproximuje zvážením každého výrazu (unigramu) z načteného dokumentu a jeho pravděpodobnosti výskytu. Tak ${ displaystyle P (t | M_ {d})}$ je pravděpodobnost termínu ${ displaystyle t}$ generované jazykovým modelem ${ displaystyle M_ {d}}$ dokumentu ${ displaystyle d}$ . Tato pravděpodobnost se znásobí pro všechny výrazy z dotazu ${ displaystyle q}$ získat hodnost pro dokument ${ displaystyle d}$ v intervalu ${ displaystyle [0,1]}$ . Výpočet se opakuje pro všechny dokumenty, aby se vytvořilo pořadí všech dokumentů v kolekci dokumentů.

^[1]

Reference

^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, strana 241. Cambridge University Press, 2009

[1] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, strana 241. Cambridge University Press, 2009

[1]