Extrakce klíčových slov - Keyword extraction - Wikipedia

Extrakce klíčových slov má za úkol automatickou identifikaci termínů, které nejlépe vystihují předmět dokumentu.[1] [2]

Klíčové fráze, klíčové výrazy, klíčové segmenty nebo prostě klíčová slova jsou terminologie, která se používá k definování pojmů, které představují nejdůležitější informace obsažené v dokumentu. Ačkoli je terminologie odlišná, funkce je stejná: charakterizace tématu diskutovaného v dokumentu. Úkol extrakce klíčových slov je důležitým problémem Těžba textu, Načítání informací a Zpracování přirozeného jazyka.[3]

Přiřazení klíčového slova vs. extrakce

Metody přiřazování klíčových slov lze zhruba rozdělit na:

  • přiřazení klíčového slova (klíčová slova jsou vybírána z kontrolovaného slovníku nebo taxonomie) a
  • extrakce klíčových slov (klíčová slova jsou vybírána ze slov, která jsou výslovně uvedena v původním textu).

Metody pro automatickou extrakci klíčových slov mohou být pod dohledem, částečně pod dohledem nebo bez dozoru.[4][5] Metody bez dozoru lze dále rozdělit na jednoduché statistiky, lingvistiku nebo metody založené na grafech nebo souborové metody, které kombinují některé nebo většinu těchto metod. [6]

Reference

  1. ^ Beliga, Slobodan; Ana, Meštrović; Martinčić-Ipšić, Sanda. (2015). „Přehled metod a přístupů k extrakci klíčových slov založených na grafech“. Journal of Information and Organizational Sciences. 39 (1): 1–20.CS1 maint: používá parametr autoři (odkaz)
  2. ^ Rada Mihalcea a Paul Tarau (červenec 2004). TextRank: Přenesení objednávky do textů (PDF). Sborník z konference o empirických metodách ve zpracování přirozeného jazyka (EMNLP 2004). Barcelona, ​​Španělsko.CS1 maint: používá parametr autoři (odkaz)
  3. ^ Beliga, Slobodan; Meštrović, Ana; Martinčić - Ipšić, Sanda. (2014). Směrem k extrakci klíčových slov podle selektivity pro chorvatské zprávy (PDF). Surfacing the Deep and the Social Web (SDSW 2014). 1310. Itálie: CEUR Proc. s. 1–14.CS1 maint: používá parametr autoři (odkaz)
  4. ^ Alrehamy, H .; Walker, C. (2017). SemCluster: Automatická extrakce klíčových slov bez dozoru pomocí afinitního šíření. 17. britský seminář o výpočetní inteligenci.CS1 maint: používá parametr autoři (odkaz)
  5. ^ „Extrakce klíčových slov: z TF-IDF do BERT“.
  6. ^ Tayfun Pay; Stephen Lucci (2017). Automatická extrakce klíčových slov: metoda souboru. 2017 Mezinárodní konference IEEE o velkých datech (Big Data). doi:10.1109 / BigData.2017.8258552.CS1 maint: používá parametr autoři (odkaz)


Další čtení

Článek v časopise: N. Firoozeh, A. Nazarenko, F. Alizon, B. Daille. 2019. Extrakce klíčových slov: Problémy a metody. Natural Language Engineering, 1-33, doi: 10.1017 / S1351324919000457, Cambridge University Press