Rocchioův algoritmus - Rocchio algorithm - Wikipedia

The Rocchioův algoritmus je založen na metodě relevantní zpětná vazba nalezen v vyhledávání informací systémy, které vycházely z Systém SMART Information Retrieval System který byl vyvinut v letech 1960-1964. Stejně jako mnoho jiných vyhledávacích systémů byl i Rocchio zpětnovazební přístup vyvinut pomocí Vektorový vesmírný model. The algoritmus je založen na předpokladu, že většina uživatelů má obecnou představu o tom, které dokumenty by měly být označeny jako relevantní nebo nerelevantní.[1] Proto je vyhledávací dotaz uživatele revidován tak, aby obsahoval libovolné procento relevantních a nerelevantních dokumentů jako prostředek ke zvýšení vyhledávač je odvolání a případně také přesnost. Počet relevantních a nerelevantních dokumentů, které lze zadat a dotaz je dán váhami proměnných a, b, c uvedených níže v Sekce algoritmu.[1]

Algoritmus

The vzorec a definice proměnných pro zpětnou vazbu o důležitosti Rocchio jsou následující:[1]

VariabilníHodnota
Upravený vektor dotazu
Původní dotaz vektor
Vektor souvisejícího dokumentu
Vektor nesouvisejícího dokumentu
Původní váha dotazu
Hmotnost souvisejících dokumentů
Hmotnost nesouvisejících dokumentů
Sada souvisejících dokumentů
Sada nesouvisejících dokumentů

Jak je ukázáno ve vzorci, související váhy (A, b, C) jsou odpovědní za formování upravených vektor ve směru blíže nebo dále od původního dotazu, souvisejících dokumentů a nesouvisejících dokumentů. Zejména hodnoty pro b a C by měly být zvýšeny nebo sníženy proporcionálně k sadě dokumentů klasifikovaných uživatelem. Pokud se uživatel rozhodne, že upravený dotaz by neměl obsahovat výrazy z původního dotazu, souvisejících dokumentů nebo nesouvisejících dokumentů, pak odpovídající váha (A, b, C) hodnota pro kategorii by měla být nastavena na 0.

V pozdější části algoritmu proměnné , a jsou prezentovány jako sady vektory obsahující souřadnice souvisejících dokumentů a nesouvisejících dokumentů. Ačkoli a nejsou samy vektory, a jsou vektory používané k iteraci dvěma sadami a formování vektoru shrnutí. Tyto částky jsou normalizovány (děleny) podle velikosti jejich příslušné sady dokumentů (, ).

Chcete-li vizualizovat změny, ke kterým dochází na upraveném vektoru, podívejte se na obrázek níže.[1] Jak se váhy pro konkrétní kategorii dokumentů zvyšují nebo snižují, souřadnice upraveného vektoru se začínají pohybovat buď blíže, nebo dále od těžiště sbírky dokumentů. Pokud se tedy zvýší váha souvisejících dokumentů, pak upravených vektorů souřadnice bude odrážet blíže k těžišti souvisejících dokumentů.

Časová složitost

VariabilníHodnota
Sada označených dokumentů
Průměrný počet žetonů na dokument
Sada tříd
Slovník / sada termínů
Počet tokenů v dokumentu
Počet typů v dokumentu

The časová složitost pro trénink a testování algoritmu jsou uvedeny níže a následuje definice každého z nich proměnná. Všimněte si, že ve fázi testování lze časovou složitost snížit na výpočet euklidovská vzdálenost mezi třídou těžiště a příslušný dokument. Jak ukazuje: .

Školení =
Testování = [1]

Používání

Rocchio klasifikace

Přestože hodnocení dokumentů jako nerelevantní má výhody, a relevantní výsledkem hodnocení dokumentů bude uživateli zpřístupnění přesnějších dokumentů. Proto tradiční hodnoty pro váhy algoritmu (A, b, C) v Rocchio klasifikace jsou obvykle kolem a = 1, b = 0,8, a c = 0,1. Moderní vyhledávání informací systémy se posunuly k eliminaci nesouvisejících dokumentů nastavením c = 0 a tedy pouze zaúčtování souvisejících dokumentů. I když ne všichni vyhledávací systémy eliminovali potřebu nesouvisejících dokumentů, většina omezila účinky na upravený dotaz pouze tím, že zohlednila nejsilnější nesouvisející dokumenty v Dnr soubor.

Omezení

Algoritmus Rocchio často nedokáže klasifikovat multimodální třídy a vztahy. Například země Barma byl přejmenován na Myanmar v roce 1989. Proto se dva dotazy „Barma“ a „Myanmar“ objeví mnohem dále od sebe v vektorový vesmírný model, ačkoli oba mají podobný původ.[1]

Viz také

Reference

  1. ^ A b C d E F Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Úvod do získávání informací, strana 163-167. Cambridge University Press, 2009.