Systém SMART Information Retrieval System - SMART Information Retrieval System
The SMART (Systém pro mechanickou analýzu a načítání textu) Systém získávání informací je vyhledávání informací systém vyvinutý v Cornell University v šedesátých letech. V rámci výzkumu na internetu bylo vyvinuto mnoho důležitých konceptů při získávání informací CHYTRÝ[mrtvý odkaz ] systém, včetně vektorový vesmírný model, relevantní zpětná vazba, a Rocchio klasifikace.
Gerard Salton vedl skupinu, která vyvinula SMART. Včetně dalších přispěvatelů Mike Lesk.
Systém SMART také poskytuje sadu korpusů, dotazů a referenčních žebříčků převzatých z různých předmětů, zejména
- ADI[mrtvý odkaz ]: publikace z recenzí informační vědy
- CACM[mrtvý odkaz ]: počítačová věda
- Cranfieldova sbírka[mrtvý odkaz ]: publikace z leteckých recenzí
- CISI[mrtvý odkaz ]: knihovnictví
- Medlars kolekce[mrtvý odkaz ]: publikace z lékařských recenzí
- Sbírka časopisů Time[mrtvý odkaz ]: archiv všeobecného přehledu Čas v roce 1963
K odkazu systému SMART patří takzvaná trojitá notace SMART, mnemotechnická schéma pro označení tf-idf varianty vážení v modelu vektorového prostoru. Mnemotechnická pomůcka pro reprezentaci kombinace vah má formu ddd.qqq
, kde první tři písmena představují vážení výrazů vektoru dokumentu kolekce a druhá tři písmena představují vážení výrazů pro vektor dokumentu dotazu. Například, ltc.lnn
představuje ltc
vážení aplikované na sběrný doklad a lnn
vážení aplikované na dokument dotazu.
Následující tabulky stanoví SMART notaci:[1]
představuje vektor dokumentu, kde je váha výrazu v a je počet jedinečných výrazů v . Pozitivní vlastnosti charakterizují pojmy, které jsou v dokumentu přítomny, a váha nula se používá pro pojmy, které v dokumentu chybí. | |||
Frekvence výskytu výrazu v dokumentu | Počet jedinečných výrazů v dokumentu | ||
Počet inkasních dokladů | Průměrný počet jedinečných výrazů v dokumentu | ||
Počet dokumentů s termínem současnost, dárek | Počet znaků v dokumentu | ||
Frekvence výskytu nejběžnějšího výrazu v dokumentu | Průměrný počet znaků v dokumentu | ||
Průměrná frekvence výskytu výrazu v dokumentu | Globální statistika sběru | ||
Sklon v kontextu normalizace délky natáčeného dokumentu[2] |
Četnost termínů | Četnost dokumentu | Normalizace délky dokumentu | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
b | Binární váha | X | n | Ignoruje frekvenci sběru | X | n | Žádná normalizace délky dokumentu | ||||
t | n | Četnost hrubých termínů | F | Frekvence inverzního sběru | C | Kosinová normalizace | |||||
A | Rozšířená frekvence normalizovaných termínů | t | Frekvence inverzního sběru | u | Pivotovaná jedinečná normalizace[2] | ||||||
l | Logaritmus | p | Pravděpodobná inverzní četnost sběru | b | Pivoted characted length normalizisation[2] | ||||||
L | Normalizace založená na průměrném termínu a frekvenci[2] | ||||||||||
d | Dvojitý logaritmus |
Šedá písmena v prvním, pátém a devátém sloupci jsou schématem používaným Saltonem a Buckleym v jejich příspěvku z roku 1988.[3] Tučná písmena ve druhém, šestém a desátém sloupci jsou schématem používaným v experimentech popsaných dále.
Reference
- ^ Palchowdhury, Sauparna (2016). „O původu tf-idf“. sauparna.sdf.org. Citováno 2019-07-29.
- ^ A b C d Singhal, A., Buckley, C., & Mitra, M. (1996). Normalizace délky otočeného dokumentu. Fórum SIGIR, 51, 176-184.
- ^ Salton, G., & Buckley, C. (1988). Přístupy k vážení termínů v automatickém načítání textu. Inf. Proces. Spravovat., 24, 513-523.
externí odkazy
- Softwarové a testovací sbírky[mrtvý odkaz ] (FTP v Cornell University )
- Interaktivní výukový program SMART[mrtvý odkaz ]
Tento softwarové inženýrství související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |