Tf – idf - Tf–idf

v vyhledávání informací, tf – idf, TF * IDFnebo TFIDF, zkratka pro termín frekvence – inverzní frekvence dokumentu, je číselná statistika, která má odrážet, jak důležité je slovo pro dokument ve sbírce nebo korpus.[1] Často se používá jako váhový faktor při vyhledávání informací, dolování textu, a uživatelské modelování Hodnota tf – idf se zvyšuje proporcionálně kolikrát se slovo v dokumentu objeví, a je kompenzováno počtem dokumentů v korpusu, které slovo obsahují, což pomáhá přizpůsobit se tomu, že některá slova se obecně objevují častěji. tf – idf je dnes jedním z nejpopulárnějších systémů vážení termínů. Průzkum provedený v roce 2015 ukázal, že 83% textových doporučovacích systémů v digitálních knihovnách používá tf – idf.[2]

Variace váhového schématu tf – idf jsou často používány vyhledávače jako ústřední nástroj při hodnocení a hodnocení dokumentu relevantnost daný uživatel dotaz. tf – idf lze úspěšně použít pro stop-slova filtrování v různých oborech, včetně shrnutí textu a klasifikace.

Jeden z nejjednodušších hodnotící funkce se počítá sečtením tf – idf pro každý výraz dotazu; mnoho sofistikovanějších hodnotících funkcí jsou varianty tohoto jednoduchého modelu.

Motivace

Četnost termínů

Předpokládejme, že máme sadu anglických textových dokumentů a chceme je seřadit podle toho, který dokument je pro dotaz relevantnější, „hnědá kráva“. Jednoduchý způsob, jak začít, je vyloučit dokumenty, které neobsahují všechna tři slova „the“, „brown“ a „cow“, ale i tak zbývá mnoho dokumentů. Abychom je dále rozlišili, můžeme spočítat, kolikrát se v každém dokumentu vyskytuje každý výraz; kolikrát se v dokumentu vyskytne výraz, který se nazývá jeho četnost termínů. V případě, že se délka dokumentů velmi liší, jsou však často prováděny úpravy (viz definice níže). První forma vážení termínů je způsobena Hans Peter Luhn (1957), kterou lze shrnout jako:[3]

Váha termínu, který se v dokumentu vyskytuje, je jednoduše úměrná frekvenci termínu.

Četnost inverzních dokumentů

Protože termín „„ “je tak běžný, jeho frekvence bude mít tendenci nesprávně zdůrazňovat dokumenty, které používají slovo„ the “častěji, aniž by dostaly dostatečnou váhu smysluplnějším výrazům„ brown “a„ cow “. Termín „the“ není dobrým klíčovým slovem pro rozlišení relevantních a nerelevantních dokumentů a termínů, na rozdíl od méně obvyklých slov „brown“ a „cow“. Proto, an frekvence inverzních dokumentů je zahrnut faktor, který snižuje váhu výrazů, které se v sadě dokumentů vyskytují velmi často, a zvyšuje váhu výrazů, které se vyskytují zřídka.

Karen Spärck Jones (1972) koncipovali statistickou interpretaci termínové specificity nazvanou Inverse Document Frequency (idf), která se stala základním kamenem vážení termínů:[4]

Specifičnost termínu lze kvantifikovat jako inverzní funkci počtu dokumentů, ve kterých se vyskytuje.

Definice

  1. Tf – idf je produktem dvou statistik, četnost termínů a frekvence inverzních dokumentů. Existuje několik způsobů, jak určit přesné hodnoty obou statistik.
  2. Vzorec, jehož cílem je definovat důležitost klíčového slova nebo fráze v dokumentu nebo na webové stránce.
Varianty hmotnosti termínu frekvence (tf)
váhové schématf hmotnost
binární
hrubý počet
četnost termínů
normalizace protokolu
dvojitá normalizace 0,5
dvojitá normalizace K.

Četnost termínů

V případě četnost termínů tf (t,d), nejjednodušší volbou je použít hrubý počet výrazu v dokumentu, tj. kolikrát byl tento výraz t vyskytuje se v dokumentu d. Pokud označíme hrubý počet Ft,d, pak je nejjednodušší tf schéma tf (t,d) = Ft,d. Mezi další možnosti patří[5]:128

  • Booleovský "frekvence": tf (t,d) = 1 -li t se vyskytuje v d a 0 jinak;
  • periodicita upravená podle délky dokumentu: tf (t,d) = Ft,d ÷ (počet slov v d)
  • logaritmicky zmenšen frekvence: tf (t,d) = log (1 +.) Ft,d);[6]
  • rozšířená frekvence, aby se předešlo zkreslení vůči delším dokumentům, např. hrubá frekvence dělená surovou frekvencí nejběžnějšího výrazu v dokumentu:

Četnost inverzních dokumentů

Varianty váhy inverzní frekvence dokumentu (idf)
váhové schémahmotnost IDF ()
unární1
frekvence inverzních dokumentů
frekvence inverzních dokumentů plynulá
frekvence inverzního dokumentu max
pravděpodobnostní inverzní frekvence dokumentu

The frekvence inverzních dokumentů je měřítkem toho, kolik informací slovo poskytuje, tj. jestli je běžné nebo vzácné ve všech dokumentech. To je logaritmicky zmenšen inverzní zlomek dokumentů, které obsahují slovo (získáno vydělením celkového počtu dokumentů počtem dokumentů, které obsahují výraz, a poté provedením logaritmu tohoto kvocientu):

s

  • : celkový počet dokumentů v korpusu
  • : počet dokumentů, kde je termín se objeví (tj. ). Pokud termín není v korpusu, povede to k rozdělení na nulu. Je proto běžné upravit jmenovatele na .
Graf různých frekvenčních funkcí inverzního dokumentu: standardní, plynulý, pravděpodobnostní.

Četnost termínů - Četnost inverzních dokumentů

Pak se tf – idf počítá jako

Vysoké hmotnosti v tf – idf je dosaženo ve vysoké době frekvence (v daném dokumentu) a nízká četnost dokumentů v celé sbírce dokumentů; váhy proto mají tendenci filtrovat běžné pojmy. Protože poměr uvnitř log funkce idf je vždy větší nebo roven 1, hodnota idf (a tf – idf) je větší nebo rovna 0. Jak se výraz vyskytuje ve více dokumentech, poměr uvnitř logaritmu se blíží 1 , čímž se idf a tf – idf přiblíží k 0.

Doporučená schémata vážení tf – idf
váhové schémaváha výrazu dokumentuváha termínu dotazu
1
2
3

Odůvodnění idf

IDF zavedl jako „specifičnost výrazu“ Karen Spärck Jones v článku z roku 1972. Ačkoli to fungovalo dobře jako heuristický, jeho teoretické základy byly problematické nejméně tři desetiletí poté, přičemž se mnoho vědců pokoušelo najít teoretická informace zdůvodnění.[7]

Vlastní vysvětlení Spärcka Jonese nenavrhovalo mnoho teorie, kromě souvislosti s Zipfův zákon.[7] Byly provedeny pokusy dát idf na a pravděpodobnostní základ,[8] odhadem pravděpodobnosti, že daný dokument d obsahuje termín t jako relativní četnost dokumentů,

abychom mohli definovat idf jako

Frekvence inverzního dokumentu je logaritmus „inverzní“ relativní frekvence dokumentu.

Tato pravděpodobnostní interpretace má zase stejnou formu jako interpretace vlastní informace. Aplikování takovýchto informačních teoretických pojmů na problémy při získávání informací však vede k problémům při pokusu o definování vhodných prostory pro akce pro požadované rozdělení pravděpodobnosti: je třeba vzít v úvahu nejen dokumenty, ale také dotazy a podmínky.[7]

Souvislost s informační teorií

Frekvenci termínů a frekvenci inverzních dokumentů lze formulovat pomocí Informační teorie; pomáhá pochopit, proč mají jejich produkty význam z hlediska společného informačního obsahu dokumentu. Charakteristický předpoklad o rozdělení je to:

Tento předpoklad a jeho důsledky podle Aizawy: „představují heuristiku, kterou používá tf-idf.“[9]

Vzpomeňte si na výraz Podmíněná entropie „náhodně vybraného“ dokumentu v korpusu podmíněno skutečností, že obsahuje konkrétní výraz (a předpokládejme, že všechny dokumenty mají stejnou pravděpodobnost, že budou vybrány, a malé být r = pravděpodobnosti)):

Pokud jde o notaci, a jsou "náhodné proměnné" odpovídající příslušnému nakreslení dokumentu nebo výrazu. Nyní si připomeňte definici Vzájemné informace a všimněte si, že to může být vyjádřeno jako

Posledním krokem je rozšíření , bezpodmínečná pravděpodobnost nakreslení výrazu s ohledem na (náhodný) výběr dokumentu k získání:

Tento výraz ukazuje, že sečtením Tf-idf všech možných termínů a dokumentů se obnoví vzájemná informace mezi dokumenty a termínem se zohledněním všech specifik jejich společné distribuce[10]. Každý Tf-idf tedy nese „bit informací“ připojený k páru dokumentů x.

Příklad tf – idf

Předpokládejme, že máme tabulky počtu termínů korpusu skládající se pouze ze dvou dokumentů, které jsou uvedeny vpravo.

Dokument 2
ObdobíPočet termínů
tento1
je1
další2
příklad3
Dokument 1
ObdobíPočet termínů
tento1
je1
A2
vzorek1

Výpočet tf – idf pro termín „toto“ se provádí následovně:

Ve své surové formě frekvence je tf pouze frekvence „tohoto“ pro každý dokument. V každém dokumentu se slovo „toto“ objeví jednou; ale protože dokument 2 má více slov, jeho relativní frekvence je menší.

IDF je konstantní na každý korpus a účty pro poměr dokumentů, které obsahují slovo „this“. V tomto případě máme soubor dvou dokumentů a všechny obsahují slovo „toto“.

Tf – idf je tedy pro slovo „this“ nula, což znamená, že slovo není příliš informativní, protože se vyskytuje ve všech dokumentech.

Slovo „příklad“ je zajímavější - vyskytuje se třikrát, ale pouze ve druhém dokumentu:

Konečně,

(za použití základní 10 logaritmus ).

Nad rámec podmínek

Myšlenka tf – idf platí také pro jiné entity než termíny. V roce 1998 byl koncept citace aplikován na citace.[11] Autoři tvrdili, že „pokud dva dokumenty sdílejí velmi neobvyklou citaci, mělo by to mít větší váhu než citace uváděná velkým počtem dokumentů“. Kromě toho byl tf – idf použit na „vizuální slova“ za účelem provedení shody objektů ve videích,[12] a celé věty.[13] Koncept tf – idf se však ve všech případech neukázal jako efektivnější než prosté schéma tf (bez idf). Když byl na citace použit tf – idf, vědci nenašli žádné zlepšení oproti jednoduché váze počtu citací, která neměla žádnou součást idf.[14]

Deriváty

Z tf – idf pochází řada schémat vážení termínů. Jedním z nich je TF – PDF (Term Frequency * Proportional Document Frequency).[15] TF – PDF byl představen v roce 2001 v kontextu identifikace nově vznikajících témat v médiích. Složka PDF měří rozdíl v tom, jak často se výraz vyskytuje v různých doménách. Další derivát je TF – IDuF. V TF – IDuF,[16] idf se nepočítá na základě korpusu dokumentu, který má být prohledán nebo doporučen. Místo toho se idf počítá na osobních sbírkách dokumentů uživatelů. Autoři uvádějí, že TF – IDuF byl stejně účinný jako tf – idf, ale mohl by být použit také v situacích, kdy např. Uživatelský modelovací systém nemá přístup ke globálnímu korpusu dokumentu.

Viz také

Reference

  1. ^ Rajaraman, A .; Ullman, J.D. (2011). „Data Mining“ (PDF). Těžba masivních datových sad. s. 1–17. doi:10.1017 / CBO9781139058452.002. ISBN  978-1-139-05845-2.
  2. ^ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). „Systémy doporučujících výzkumných prací: průzkum literatury“. International Journal on Digital Libraries. 17 (4): 305–338. doi:10.1007 / s00799-015-0156-0. ISSN  1432-5012. S2CID  207035184.
  3. ^ Luhn, Hans Peter (1957). „Statistický přístup k mechanickému kódování a vyhledávání literárních informací“ (PDF). IBM Journal of Research and Development. 1 (4): 309–317. doi:10.1147 / kolo 14.0309. Citováno 2. března 2015. Existuje také pravděpodobnost, že čím častěji se pojem a kombinace pojmů vyskytují, tím větší význam jim autor přikládá, protože odrážejí podstatu jeho celkové myšlenky.
  4. ^ Spärck Jones, K. (1972). "Statistická interpretace termínové specificity a její aplikace při vyhledávání". Deník dokumentace. 28: 11–21. CiteSeerX  10.1.1.115.8343. doi:10.1108 / eb026526.
  5. ^ Manning, C.D .; Raghavan, P .; Schutze, H. (2008). „Bodování, vážení termínů a model vektorového prostoru“ (PDF). Úvod do získávání informací. str. 100. doi:10.1017 / CBO9780511809071.007. ISBN  978-0-511-80907-1.
  6. ^ "Statistiky TFIDF | SAX-VSM".
  7. ^ A b C Robertson, S. (2004). "Porozumění četnosti inverzních dokumentů: O teoretických argumentech pro IDF". Deník dokumentace. 60 (5): 503–520. doi:10.1108/00220410410560582.
  8. ^ Viz také Odhady pravděpodobnosti v praxi v Úvod do získávání informací.
  9. ^ Aizawa, Akiko (2003). „Informační teoretická perspektiva opatření tf – idf“. Zpracování a správa informací. 39 (1): 45–65. doi:10.1016 / S0306-4573 (02) 00021-3.
  10. ^ Aizawa, Akiko (2003). „Informační teoretická perspektiva opatření tf – idf“. Zpracování a správa informací. 39 (1): 45–65. doi:10.1016 / S0306-4573 (02) 00021-3.
  11. ^ Bollacker, Kurt D .; Lawrence, Steve; Giles, C. Lee (01.01.1998). CiteSeer: Autonomní webový agent pro automatické načítání a identifikaci zajímavých publikací. Sborník z druhé mezinárodní konference o autonomních agentech. AGENTI '98. str. 116–123. doi:10.1145/280765.280786. ISBN  978-0-89791-983-8. S2CID  3526393.
  12. ^ Sivic, Josef; Zisserman, Andrew (01.01.2003). Video Google: Přístup k načítání textu při porovnávání objektů ve videích. Sborník z deváté mezinárodní konference IEEE o počítačovém vidění - svazek 2. ICCV '03. 1470–. doi:10.1109 / ICCV.2003.1238663. ISBN  978-0-7695-1950-0. S2CID  14457153.
  13. ^ Seki, Yohei. „Extrakce věty pomocí tf / idf a vážení pozic z novinových článků“ (PDF). Národní institut informatiky.
  14. ^ Beel, Joeran; Breitinger, Corinna (2017). „Hodnocení CC-IDF schématu vážení citací - Jak efektivně lze použít„ inverzní dokumentovou frekvenci “(IDF) na reference?“ (PDF). Sborník 12. konference.
  15. ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001). Systém sledování nových témat. Sborník Třetí mezinárodní seminář o pokročilých problémech elektronického obchodování a webových informačních systémů. WECWIS 2001. str. 2. CiteSeerX  10.1.1.16.7986. doi:10.1109 / wecwis.2001.933900. ISBN  978-0-7695-1224-2. S2CID  1049263.
  16. ^ Langer, Stefan; Gipp, Bela (2017). „TF-IDuF: Nové schéma vážení termínů pro modelování uživatelů založené na sbírkách osobních dokumentů uživatelů“ (PDF). IConference.

Externí odkazy a doporučené čtení