Rozšířený booleovský model - Extended Boolean model - Wikipedia
The Rozšířený booleovský model byl popsán v článku Komunikace ACM, který vyšel v roce 1983, Gerardem Saltonem, Edwardem A. Foxem a Harrym Wu. Cílem rozšířeného booleovského modelu je překonat nevýhody booleovského modelu, který byl použit v vyhledávání informací. Booleovský model nezohledňuje váhu termínů v dotazech a sada výsledků booleovského dotazu je často příliš malá nebo příliš velká. Myšlenkou rozšířeného modelu je využití částečné shody a termínových vah jako u modelu vektorového prostoru. Kombinuje vlastnosti Vektorový vesmírný model s vlastnostmi Booleova algebra a hodnotí podobnost mezi dotazy a dokumenty. Tímto způsobem může být dokument poněkud relevantní, pokud odpovídá některým z dotazovaných výrazů a bude vrácen jako výsledek, zatímco v Standardní booleovský model nebylo.[1]
Rozšířený booleovský model lze tedy považovat za zobecnění booleovských i vektorových modelů prostoru; jedná se o speciální případy, pokud jsou použita vhodná nastavení a definice. Výzkum dále ukázal, že účinnost se v porovnání se zpracováním booleovských dotazů zlepšuje. Jiný výzkum to ukázal relevantní zpětná vazba a rozšíření dotazu lze integrovat s rozšířeným zpracováním booleovských dotazů.
Definice
V Rozšířený booleovský model, dokument je reprezentován jako vektor (podobně jako ve vektorovém modelu). Každý i dimenze odpovídá samostatnému výrazu spojenému s dokumentem.
Váha termínu K.X spojené s dokumentem dj se měří jeho normalizovaným Četnost termínů a lze jej definovat jako:
kde IdfX je frekvence inverzních dokumentů a Fx, j četnost výrazů pro výraz x v dokumentu j.
Váhový vektor přidružený k dokumentu dj lze reprezentovat jako:
Příklad 2 dimenzí


Vzhledem k prostoru složenému ze dvou termínů K.X a K.y pouze odpovídající váhy termínů jsou w1 a w2.[2] Tedy pro dotaz qnebo = (K.X ∨ K.y), můžeme vypočítat podobnost pomocí následujícího vzorce:
Pro dotaz qa = (K.X ∧ K.y), můžeme použít:
Zobecnění myšlenky a P-norem
Můžeme zobecnit předchozí příklad 2D rozšířeného booleovského modelu na vyšší t-dimenzionální prostor pomocí euklidovských vzdáleností.
To lze provést pomocí P-normy který rozšiřuje pojem vzdálenosti o p-vzdálenosti, kde 1 ≤ p ≤ ∞ je nový parametr.[3]
- Zobecněný konjunktivní dotaz je dán vztahem:
- Podobnost a lze definovat jako:
:
- Zobecněný disjunktivní dotaz je dán:
- Podobnost a lze definovat jako:
Příklady
Zvažte dotaz q = (K.1 ∧ K.2) ∨ K.3. Podobnost mezi dotazem q a dokument d lze vypočítat pomocí vzorce:
Vylepšení oproti standardnímu booleovskému modelu
Lee a Fox[4] porovnávali standardní a rozšířené booleovské modely se třemi testovacími kolekcemi, CISI, CACM a INSPEC. Použitím P-norem dosáhli průměrného zlepšení přesnosti o 79%, 106% a 210% oproti standardnímu modelu pro kolekce CISI, CACM a INSPEC , resp.
Model P-normy je výpočetně nákladný kvůli počtu exponenciálních operací, které vyžaduje, ale dosahuje mnohem lepších výsledků než standardní model a dokonce Fuzzy načítání techniky. The Standardní booleovský model je stále nejúčinnější.
Další čtení
- Metody adaptivní zpětné vazby v rozšířeném booleovském modelu Dr.Jongpill Choi
- Interpolace rozšířeného booleovského modelu načítání
- Fox, E .; Betrabet, S .; Koushik, M .; Lee, W. (1992), Načítání informací: Algoritmy a datové struktury; Rozšířený booleovský model, Prentice-Hall, Inc.
- Skorkovská, Lucie; Ircing, Pavel (2009), „Experimenty s automatickou formulací dotazů v rozšířeném booleovském modelu“, Text, řeč a dialog, Přednášky v informatice, 5729, Springer Berlin / Heidelberg, str. 371–378, doi:10.1007/978-3-642-04208-9_51, hdl:11025/16985, ISBN 978-3-642-04207-2
Viz také
Reference
- ^ Salton, Gerard; Fox, Edward A .; Wu, Harry (1983), „Extended Boolean information retrieval“, Komunikace ACM, Komunikace ACM, svazek 26, vydání 11, 26 (11): 1022–1036, doi:10.1145/182.358466, hdl:1813/6351
- ^ "Lusheng Wang". Archivovány od originál dne 2011-09-27. Citováno 2009-12-01.
- ^ García, Dr. E., Rozšířený booleovský model - vážené dotazy: váhy termínů, dotazy p-Norm a typy Multiconcept. Boolean OR Extended? A to je dotaz
- ^ Lee, W. C .; Fox, E. A. (1988), Experimentální srovnání schémat pro interpretaci booleovských dotazů (PDF)