Systém SMART Information Retrieval System - SMART Information Retrieval System

The SMART (Systém pro mechanickou analýzu a načítání textu) Systém získávání informací je vyhledávání informací systém vyvinutý v Cornell University v šedesátých letech. V rámci výzkumu na internetu bylo vyvinuto mnoho důležitých konceptů při získávání informací CHYTRÝ^{[mrtvý odkaz ]} systém, včetně vektorový vesmírný model, relevantní zpětná vazba, a Rocchio klasifikace.

Gerard Salton vedl skupinu, která vyvinula SMART. Včetně dalších přispěvatelů Mike Lesk.

Systém SMART také poskytuje sadu korpusů, dotazů a referenčních žebříčků převzatých z různých předmětů, zejména

ADI^{[mrtvý odkaz ]}: publikace z recenzí informační vědy
CACM^{[mrtvý odkaz ]}: počítačová věda
Cranfieldova sbírka^{[mrtvý odkaz ]}: publikace z leteckých recenzí
CISI^{[mrtvý odkaz ]}: knihovnictví
Medlars kolekce^{[mrtvý odkaz ]}: publikace z lékařských recenzí
Sbírka časopisů Time^{[mrtvý odkaz ]}: archiv všeobecného přehledu Čas v roce 1963

K odkazu systému SMART patří takzvaná trojitá notace SMART, mnemotechnická schéma pro označení tf-idf varianty vážení v modelu vektorového prostoru. Mnemotechnická pomůcka pro reprezentaci kombinace vah má formu ddd.qqq, kde první tři písmena představují vážení výrazů vektoru dokumentu kolekce a druhá tři písmena představují vážení výrazů pro vektor dokumentu dotazu. Například, ltc.lnn představuje ltc vážení aplikované na sběrný doklad a lnn vážení aplikované na dokument dotazu.

Následující tabulky stanoví SMART notaci:^[1]

Symboly a notace
${ textstyle D_ {i} = {w_ {i_ {1}}, w_ {i_ {2}}, ldots, w_ {i_ {t}} }}$ představuje vektor dokumentu, kde ${ textstyle w_ {i_ {k}}}$ je váha výrazu ${ textstyle T_ {k}}$ v ${ textstyle D_ {i}}$ a ${ displaystyle t}$ je počet jedinečných výrazů v ${ textstyle D_ {i}}$ . Pozitivní vlastnosti charakterizují pojmy, které jsou v dokumentu přítomny, a váha nula se používá pro pojmy, které v dokumentu chybí.
${ textstyle f_ {i_ {k}}}$	Frekvence výskytu výrazu ${ textstyle T_ {k}}$ v dokumentu ${ textstyle D_ {i}}$	${ textový styl u_ {i}}$	Počet jedinečných výrazů v dokumentu ${ textový styl D_ {i}}$
${ displaystyle N}$	Počet inkasních dokladů	${ displaystyle operatorname {avg} (u)}$	Průměrný počet jedinečných výrazů v dokumentu
${ textstyle n_ {k}}$	Počet dokumentů s termínem ${ textstyle T_ {k}}$ současnost, dárek	${ displaystyle b_ {t}}$	Počet znaků v dokumentu ${ displaystyle D_ {i}}$
${ displaystyle max (f_ {i_ {k}})}$	Frekvence výskytu nejběžnějšího výrazu v dokumentu ${ displaystyle D_ {i}}$	${ textstyle operatorname {avg} (b)}$	Průměrný počet znaků v dokumentu
${ displaystyle operatorname {avg} (f_ {i_ {k}})}$	Průměrná frekvence výskytu výrazu v dokumentu ${ displaystyle D_ {i}}$	${ textstyle G}$	Globální statistika sběru
${ displaystyle s}$	Sklon v kontextu normalizace délky natáčeného dokumentu^[2]

Inteligentní trojitá notace pro vážení termínů
Četnost termínů ${ textstyle { text {tf}} (f_ {i_ {k}})}$				Četnost dokumentu ${ textstyle { text {df}} (N, n_ {k})}$				Normalizace délky dokumentu ${ textový styl g (G, D_ {i})}$
	`b`	${ textový styl 1}$	Binární váha	`X`	`n`	${ textový styl 1}$	Ignoruje frekvenci sběru	`X`	`n`	${ textový styl 1}$	Žádná normalizace délky dokumentu
`t`	`n`	${ textstyle f_ {i_ {k}}}$	Četnost hrubých termínů	`F`		${ displaystyle log _ {2} left ({ frac {N} {n_ {k}}} right)}$	Frekvence inverzního sběru		`C`	${ displaystyle { sqrt { sum _ {k = 1} ^ {t} w_ {i_ {k}} ^ {2}}}}$	Kosinová normalizace
	`A`	${ textstyle 0,5 + 0,5 { frac {f_ {i_ {k}}} { max (f_ {i_ {k}})}}}$	Rozšířená frekvence normalizovaných termínů		`t`	${ displaystyle log _ {2} left ({ frac {N + 1} {n_ {k}}} right)}$	Frekvence inverzního sběru		`u`	${ displaystyle 1-s + s { frac {u_ {i}} { operatorname {avg} (u)}}}$	Pivotovaná jedinečná normalizace^[2]
	`l`	${ displaystyle 1+ log _ {2} f_ {i_ {k}}}$	Logaritmus	`p`		${ displaystyle log _ {2} left ({ frac {N-n_ {k}} {n_ {k}}} right)}$	Pravděpodobná inverzní četnost sběru		`b`	${ displaystyle 1-s + s { frac {b_ {i}} { operatorname {avg} (b)}}}$	Pivoted characted length normalizisation^[2]
	`L`	${ displaystyle { frac {1+ log _ {2} (f_ {i_ {k}})} {1+ log _ {2} ( operatorname {avg} (f_ {i_ {k}})) }}}$	Normalizace založená na průměrném termínu a frekvenci^[2]
	`d`	${ displaystyle 1+ log _ {2} (1+ log _ {2} (f_ {i_ {k}}))}$	Dvojitý logaritmus

Šedá písmena v prvním, pátém a devátém sloupci jsou schématem používaným Saltonem a Buckleym v jejich příspěvku z roku 1988.^[3] Tučná písmena ve druhém, šestém a desátém sloupci jsou schématem používaným v experimentech popsaných dále.

Reference

^ Palchowdhury, Sauparna (2016). „O původu tf-idf“. sauparna.sdf.org. Citováno 2019-07-29.
^ ^A ^b ^C ^d Singhal, A., Buckley, C., & Mitra, M. (1996). Normalizace délky otočeného dokumentu. Fórum SIGIR, 51, 176-184.
^ Salton, G., & Buckley, C. (1988). Přístupy k vážení termínů v automatickém načítání textu. Inf. Proces. Spravovat., 24, 513-523.

externí odkazy

Softwarové a testovací sbírky^{[mrtvý odkaz ]} (FTP v Cornell University )
Interaktivní výukový program SMART^{[mrtvý odkaz ]}

Tento softwarové inženýrství související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to.

[1] Palchowdhury, Sauparna (2016). „O původu tf-idf“. sauparna.sdf.org. Citováno 2019-07-29.

[:0-2] A ^b ^C ^d Singhal, A., Buckley, C., & Mitra, M. (1996). Normalizace délky otočeného dokumentu. Fórum SIGIR, 51, 176-184.

[3] Salton, G., & Buckley, C. (1988). Přístupy k vážení termínů v automatickém načítání textu. Inf. Proces. Spravovat., 24, 513-523.

[1]

[2]

[3]