Vektorový prostorový model - Vector space model
Vektorový prostorový model nebo termínový vektorový model je algebraický model pro reprezentaci textových dokumentů (a obecně všech objektů) jako vektory identifikátorů (například indexových výrazů). Používá se v filtrování informací, vyhledávání informací, indexování a hodnocení relevance. Jeho první použití bylo v Systém SMART Information Retrieval System.
Definice
Dokumenty a dotazy jsou reprezentovány jako vektory.
Každý dimenze odpovídá samostatnému termínu. Pokud se v dokumentu vyskytne výraz, jeho hodnota ve vektoru je nenulová. Bylo vyvinuto několik různých způsobů výpočtu těchto hodnot, také známých jako (term) váhy. Jedním z nejznámějších schémat je tf-idf vážení (viz příklad níže).
Definice období záleží na aplikaci. Termíny jsou obvykle jednoduchá slova, klíčová slova nebo delší fráze. Pokud jsou slova vybrána jako termíny, rozměrnost vektoru je počet slov ve slovníku (počet odlišných slov vyskytujících se v korpus ).
Vektorové operace lze použít k porovnání dokumentů s dotazy.
Aplikace
Relevantnost žebříčku dokumentů s vyhledáváním podle klíčových slov lze vypočítat pomocí předpokladů podobnosti dokumentu teorie, porovnáním odchylky úhlů mezi každým vektorem dokumentu a původním vektorem dotazu, kde je dotaz reprezentován jako vektor se stejnou dimenzí jako vektory, které představují ostatní dokumenty.
V praxi je snazší vypočítat kosinus úhlu mezi vektory, místo úhlu samotného:
Kde je křižovatka (tj Tečkovaný produkt ) dokumentu (d2 na obrázku vpravo) a vektory dotazu (q na obrázku), je normou vektoru d2, a je normou vektoru q. The norma vektoru se vypočítá jako takový:
Pomocí kosinu podobnost mezi dokumentem dj a dotaz q lze vypočítat jako:
Protože všechny vektory uvažované tímto modelem jsou elementy nezáporné, kosinová hodnota nula znamená, že vektor dotazu a dokumentu jsou ortogonální a nemají žádnou shodu (tj. hledaný výraz v uvažovaném dokumentu neexistuje). Vidět kosinová podobnost pro další informace.
Termín frekvenčně-inverzní frekvenční váhy dokumentu
V klasickém modelu vektorového prostoru, který navrhl Salton, Wong a Yang [1] váhy specifické pro daný termín ve vektorech dokumentu jsou produkty místních a globálních parametrů. Model je známý jako termín frekvence-inverzní frekvence dokumentu Modelka. Váhový vektor pro dokument d je , kde
a
- je termín frekvence výrazu t v dokumentu d (místní parametr)
- je inverzní frekvence dokumentu (globální parametr). je celkový počet dokumentů v sadě dokumentů; je počet dokumentů obsahujících daný výraz t.
Výhody
Model vektorového prostoru má oproti Standardní booleovský model:
- Jednoduchý model založený na lineární algebře
- Váhy termínů nejsou binární
- Umožňuje nepřetržitý výpočet podobnosti mezi dotazy a dokumenty
- Umožňuje hodnocení dokumentů podle jejich možné relevance
- Umožňuje částečné shody
Většina z těchto výhod je důsledkem rozdílu v hustotě reprezentace shromažďování dokumentů mezi booleovskými a termínově frekvenčně inverzními přístupy k frekvenci dokumentů. Při použití booleovských vah leží jakýkoli dokument ve vrcholu v n-dimenzionální hyperkrychle. Možná reprezentace dokumentu tedy jsou a maximální euklidovská vzdálenost mezi páry je . Jak jsou dokumenty přidávány do kolekce dokumentů, oblast definovaná vrcholy hyperkrychle se zalidňuje a tím je hustší. Na rozdíl od booleovského jazyka, když je dokument přidán pomocí váhových kmitočtů termínů inverzní dokument, frekvence inverzních dokumentů termínů v novém dokumentu se sníží, zatímco zbývající termíny se zvýší. Při přidávání dokumentů se oblast, kde leží dokumenty, v průměru rozšiřuje a reguluje hustotu celé reprezentace sbírky. Toto chování modeluje původní motivaci Saltona a jeho kolegů, že kolekce dokumentů představovaná v oblasti s nízkou hustotou může přinést lepší výsledky vyhledávání.
Omezení
Model vektorového prostoru má následující omezení:
- Dlouhé dokumenty jsou špatně zastoupeny, protože mají špatné hodnoty podobnosti (malá skalární součin a a velká rozměrnost )
- Klíčová slova pro vyhledávání musí přesně odpovídat výrazům dokumentu; slovo podřetězce může mít za následek „falešně pozitivní zápas"
- Sémantická citlivost; dokumenty s podobným kontextem, ale odlišnou slovní zásobou termínů nebudou spojeny, což povede k „falešně negativní zápas".
- Pořadí, ve kterém se výrazy objevují v dokumentu, se ve znázornění vektorového prostoru ztratí.
- Teoreticky předpokládá, že termíny jsou statisticky nezávislé.
- Vážení je intuitivní, ale ne příliš formální.
Mnoho z těchto obtíží však lze překonat integrací různých nástrojů, včetně matematických technik, jako je rozklad singulární hodnoty a lexikální databáze jako WordNet.
Modely založené na modelu vektorového prostoru a jeho rozšiřování
Mezi modely založené na modelu vektorového prostoru a jeho rozšiřování patří:
- Zobecněný model vektorového prostoru
- Latentní sémantická analýza
- Období
- Rocchio klasifikace
- Náhodné indexování
Software, který implementuje model vektorového prostoru
Následující softwarové balíčky mohou být zajímavé pro ty, kteří chtějí experimentovat s vektorovými modely a implementovat na nich založené vyhledávací služby.
Zdarma software s otevřeným zdrojovým kódem
- Apache Lucene. Apache Lucene je vysoce výkonná plně vybavená knihovna textového vyhledávače napsaná výhradně v Javě.
- Elasticsearch. Další vysoce výkonný plně funkční textový vyhledávač využívající Lucene.
- Gensim je Python +NumPy rámec pro modelování vektorového prostoru. Obsahuje inkrementální (paměťově efektivní) algoritmy pro termín frekvence-inverzní frekvence dokumentu, Latentní sémantické indexování, Náhodné projekce a Přidělení latentní dirichlet.
- Weka. Weka je populární balíček pro dolování dat pro Javu, včetně WordVectors a Modely Bag Of Words.
- Word2vec. Word2vec používá pro vkládání slov vektorový prostor.
Další čtení
- G. Salton (1962), "Některé experimenty s generováním asociací slov a dokumentů " Proceeding AFIPS '62 (Fall) Proceedings of the December 4–6 December, 1962, fall joint computer conference, strany 234–250. (Early Salton paper using the term-document matrix formisation)
- G. Salton, A. Wong a C. S. Yang (1975), "Model vektorového prostoru pro automatické indexování " Komunikace ACM, sv. 18, č. 11, strany 613–620. (Článek, ve kterém byl představen model vektorového prostoru)
- David Dubin (2004), Nejvlivnější papír Gerard Salton nikdy nepsal (Vysvětluje historii vektorového vesmírného modelu a neexistenci často citované publikace)
- Popis modelu vektorového prostoru
- Popis klasického modelu vektorového prostoru Dr. E. Garcíou
- Vztah hledání vektorového prostoru k hledání „k-Nejbližší soused“
Viz také
- Model pytle slov
- Zpracování složených termínů
- Koncepční prostor
- Vlastní čísla a vlastní vektory
- Invertovaný index
- Hledání nejbližšího souseda
- Řídká distribuovaná paměť
- šindel
Reference
- ^ G. Salton, A. Wong, C. S. Yang, model vektorového prostoru pro automatické indexování, Komunikace ACM, v. 18 n.11, str. 613–620, listopad 1975