W-šindel - W-shingling
v zpracování přirozeného jazyka A šindel je sada unikátní pásový opar (proto n-gramů ) z nichž každý je složen z souvislých podsekvence z žetony v rámci dokument, které pak mohou být použity ke zjištění podobnost mezi dokumenty. Symbol w označuje množství žetonů v každé vybrané šindele nebo vyřešené pro.
Dokument „růže je růže je růže“ proto může být maximálně tokenizovaný jak následuje:
- (a, rose, is, a, rose, is, a, rose)
The soubor všech souvislých sekvence 4 žetonů (Tedy 4 =n, tedy 4-gramů) je
- {(a, růže, je, a), (růže, je, a, růže), (je, a, růže, je), (a, růže, je, a), (růže, je, a, růže) } Který pak může být v tomto konkrétním případě snížen nebo maximálně šindel na {(a, růže, je, a), (růže, je, a, růže), (je, a, růže, je)}.
Podobnost
Pro danou velikost šindele stupeň, do kterého dva dokumenty A a B podobat se navzájem lze vyjádřit jako poměr velikostí jejich šindelů ' průsečík a svaz nebo
kde | A | je velikost množiny A. Podobnost je číslo v rozsahu [0,1], kde 1 označuje, že dva dokumenty jsou identické. Tato definice je totožná s definicí Jaccardův koeficient popisující podobnost a rozmanitost sad vzorků.
Viz také
- Koncept těžby (alternativní metoda pro výpočet podobnosti dokumentu s větší výpočetní složitostí, kde však míra blíže modeluje lidské vnímání podobnosti dokumentu)
- N-gram
- k-mer
- MinHash
- Válcování hash
- Rabinův otisk prstu
- Vektorový prostorový model
- Model pytle slov
Reference
- (Manber 1993) Hledání podobných souborů ve velkém systému souborů. Dosud nepoužívá výraz „šindel“.
- (Broder, Glassman, Manasse a Zweig 1997) Syntaktické shlukování webu. Technická poznámka SRC č. 1997-015.
externí odkazy
- Manning, Christopher D .; Raghavan, Prabhakar; Schütze, Hinrich (7. července 2008). "šindel". Úvod do získávání informací. Cambridge University Press. ISBN 978-1-139-47210-4.