Neshoda slovníku - Vocabulary mismatch - Wikipedia

Neshoda slovníku je běžný jev v používání přirozených jazyků, ke kterému dochází, když různí lidé pojmenovávají stejnou věc nebo pojem odlišně.

Furnas a kol. (1987) byli možná první, kdo kvantitativně studoval problém s neshodou slovní zásoby.[1] Jejich výsledky ukazují, že v průměru 80% případů různí lidé (odborníci ve stejné oblasti) pojmenují stejnou věc odlišně. Obvykle existují desítky možných jmen, které lze připsat stejné věci. Tento výzkum motivoval práci na latentní sémantické indexování.

Neshoda slovníku mezi dotazy vytvářenými uživateli a příslušnými dokumenty v korpusu způsobí problém neshody výrazu v vyhledávání informací. Zhao a Callan (2010)[2] byli možná první, kdo kvantitativně studoval problém neshody slovní zásoby v prostředí vyhledávání. Jejich výsledky ukazují, že se průměrný termín dotazu nezobrazí u 30-40% dokumentů, které jsou relevantní pro dotaz uživatele. Rovněž ukázali, že tato pravděpodobnost nesouladu je ústřední pravděpodobností v jednom ze základních modelů pravděpodobnostního vyhledávání, Model binární nezávislosti. Vyvinuli nové metody predikce hmotnosti pomocí termínů, které mohou vést k potenciálně 50-80% zvýšení přesnosti při načítání přes silné modely načítání klíčových slov. Další výzkum v této linii ukazuje, že zkušení uživatelé mohou pomocí rozšíření Boolean Conjunctive Normal Form zlepšit výkon načítání o 50–300% oproti neexpandovaným dotazům na klíčová slova.[3]

Techniky, které řeší nesoulad

Reference

  1. ^ Furnas, G. a kol., The Vocabulary Problem in Human-System Communication, Communications of the ACM, 1987, 30 (11), str. 964-971.
  2. ^ Zhao, L. a Callan, J., Term Necessity Prediction, Proceedings of the 19. ACM Conference on Information and Knowledge Management (CIKM 2010). Toronto, Kanada, 2010.
  3. ^ A b Zhao, L. a Callan, J., Automatická diagnostika nesouladu termínů pro selektivní rozšiřování dotazů, SIGIR 2012.