Rozšíření dotazu - Query expansion
Rozšíření dotazu (QE) je proces přeformulování daného dotazu za účelem zlepšení výkonu načítání v vyhledávání informací operace, zejména v kontextu porozumění dotazu.[1]V kontextu vyhledávače, rozšíření dotazu zahrnuje vyhodnocení vstupu uživatele (jaká slova byla napsána do oblasti vyhledávacího dotazu a někdy i jiné typy data ) a rozšíření vyhledávacího dotazu tak, aby odpovídal dalším dokumentům. Expanze dotazů zahrnuje techniky jako:
- Nález synonyma slov a také hledání synonym
- Hledání sémanticky souvisejících slov (např. antonyma, meronyma, hyponyma, hypernymy )
- Nalezení všech různých morfologické formy slov pramenící každé slovo v vyhledávací dotaz
- Upevnění pravopisné chyby a automatické hledání opraveného formuláře nebo jeho navrhování ve výsledcích
- Znovu vážit podmínky v původním dotazu
Rozšíření dotazu je metodika studovaná v oblasti počítačová věda, zejména v oblasti zpracování přirozeného jazyka a vyhledávání informací.
Přesnost a odvolání kompromisů
Vyhledávače vyvolávají expanzi dotazů a zvyšují tak kvalitu výsledků vyhledávání uživatelů. Předpokládá se, že uživatelé ne vždy formulují vyhledávací dotazy pomocí nejlepších výrazů. Nejlepší v tomto případě může být, protože databáze neobsahuje podmínky zadané uživatelem.
Podle pramenící uživatelem zadaný termín, bude spárováno více dokumentů, protože budou spárovány i alternativní tvary slov pro uživatelem zadaný termín, čímž se zvýší celkový odvolání. To je na úkor snižování přesnost. Rozšířením vyhledávacího dotazu o hledání synonym výrazu zadaného uživatelem se také zvyšuje vybavenost na úkor přesnosti. To je způsobeno povahou rovnice toho, jak se vypočítává přesnost, protože větší odvolání implicitně způsobí pokles přesnosti, vzhledem k tomu, že faktory odvolání jsou součástí jmenovatele. Je také odvozeno, že větší odvolání negativně ovlivňuje celkovou kvalitu výsledků vyhledávání, vzhledem k tomu, že mnoho uživatelů si nepřeje, aby se skrývalo více výsledků, bez ohledu na přesnost.
Cílem rozšiřování dotazů v tomto ohledu je zvyšování výbavnosti, přesnost se může potenciálně zvýšit (spíše než snížit jako matematicky srovnatelná), a to zahrnutím stránek s výsledky, které jsou relevantnější (vyšší kvality) nebo přinejmenším stejně relevantní. Jsou zahrnuty stránky, které by nebyly zahrnuty do sady výsledků a které mají potenciál být relevantnější pro požadovaný dotaz uživatele, a bez rozšíření dotazu by neměly, bez ohledu na relevanci. Mnoho současných komerčních vyhledávačů současně používá frekvenci slov (tf-idf ) pomáhat při hodnocení.[Citace je zapotřebí ] Řazením výskytů slov zadaných uživatelem a synonym a alternativních morfologických tvarů mají dokumenty s vyšší hustotou (vysokou frekvencí a těsnou blízkostí) tendenci migrovat výše ve výsledcích vyhledávání, což vede k vyšší kvalitě výsledků vyhledávání v blízkosti horní část výsledků, navzdory většímu odvolání.
Metody rozšiřování dotazů
Automatické metody pro rozšiřování dotazů navrhly v roce 1960 Maron a Kuhns [2]. Moderní metody rozšiřování dotazů buď znamenají analýzu shromažďování dokumentů (globální nebo místní) [3] nebo jsou založeny na slovníku nebo ontologii [4]. Globální analýza kolekce dokumentů se používá k hledání vztahů mezi pojmy. Místní analýza odkazuje na relevantní zpětná vazba představil Rocchio [5]. Rocchio navrhl ručně posoudit některé z načtených dokumentů a pomocí těchto informací zpětné vazby rozšířit dotaz. Protože shromažďování úsudků uživatelů může být náročné, považují se za relevantní pouze první nejlépe načtené dokumenty. Toto se nazývá pseudorelevantní zpětná vazba (PRF) [6]. Zpětná vazba pseudorelevance je v průměru efektivní, ale může u některých dotazů poškodit výsledky [7], zvláště obtížné, protože nejlépe načtené dokumenty pravděpodobně nejsou relevantní. Pseudo-relevantní dokumenty se používají k vyhledání kandidátských termínů pro rozšíření, které se vyskytují společně s mnoha dotazy [8]. Tato myšlenka byla dále rozvíjena v rámci relevance jazykový model formalismus v poziční relevanci [9] a modely blízkosti [10] které zohledňují vzdálenost k dotazovacím termínům v pseudo-relevantních dokumentech. Dalším směrem v rozšiřování dotazů je aplikace vkládání slov [11].
Viz také
- Vyhledání dokumentu
- Získávání informací
- Lingvistika
- Morfologie (lingvistika)
- Zpracování přirozeného jazyka
- Vyhledávač
- Indexování vyhledávače
- Stemming
Softwarové knihovny
- QueryTermAnalyzer open-source, C #. Hmotnost dotazu na základě strojového učení a analyzátor synonym pro rozšíření dotazu.
- LucQE - open-source, Java. Poskytuje rozhraní spolu s několika implementacemi, které umožňují provádět rozšiřování dotazů pomocí Apache Lucene.
- Xapian je open-source vyhledávací knihovna, která zahrnuje podporu pro rozšiřování dotazů
Reference
Citace
- ^ Vectomova, Olga; Wang, Ying (2006). Msgstr "Studie vlivu termínu blízkosti na rozšíření dotazu". Journal of Information Science. 32 (4): 324–333. CiteSeerX 10.1.1.552.5987. doi:10.1177/0165551506065787.
- ^ Maron, M. E. a Kuhns, J. L. 1960. O relevanci, pravděpodobnostním indexování a získávání informací. Časopis ACM 7, 3, 216–244.
- ^ C. Carpineto a G. Romano. Průzkum automatického rozšiřování dotazů při získávání informací. ACM Computing Surveys, 44 (1): 1-50, leden 2012.
- ^ J. Bhogal, A. Macfarlane a P. Smith. Přehled expanze dotazů na základě ontologie. Inf. Proces. Manage., 43 (4): 866-886, červenec 2007.
- ^ J. Rocchio. Relevantní zpětná vazba při získávání informací. V systému SMART Retrieval System, str. 313-323. 1971.
- ^ C. Buckley. Automatické rozšiřování dotazů pomocí SMART: TREC 3. Ve sborníku ze třetí konference Text REtrieval Conference (TREC-3). NIST Special Publication, str. 69-80. National Institute of Standards and Technology, 1995.
- ^ G. Amati, C. Carpineto a G. Romano. Obtížnost dotazu, robustnost a selektivní aplikace rozšíření dotazu. Advances in Information Retrieval, str. 127-137, 2004.
- ^ J. Xu a W. B. Croft. Rozšíření dotazů pomocí místní a globální analýzy dokumentů. V Sborníku 19. ročníku mezinárodní konference ACM SIGIR o výzkumu a vývoji v získávání informací, strany 4-11. ACM, 1996.
- ^ Y. Lv a C. Zhai. Model poziční relevance pro zpětnou vazbu pseudo-relevance. In Proceedings of the 33. International ACM SIGIR conference on Research and development in information retrieval, page 579-586. ACM, 2010.
- ^ L. Ermáková, J. Mothe a E. Nikitina. 2016. Model důležitosti blízkosti pro rozšíření dotazu. Ve sborníku z 31. výročního sympozia ACM o aplikovaných výpočtech (SAC '16). ACM, New York, NY, USA, 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696
- ^ S. Kuzi, A. Shtok a O. Kurland. 2016. Rozšíření dotazu pomocí vkládání slov. In Proceedings of the 25. ACM International on Conference on Information and Knowledge Management (CIKM '16). ACM, New York, NY, USA, 1929-1932. DOI: https://doi.org/10.1145/2983323.2983876
Zdroje
- D. Abberley, D. Kirby, S. Renals a T. Robinson, The THISL broadcast system retrieval system. v Proc. Workshop ESCA ETRW Přístup k informacím v mluveném zvuku, (Cambridge), s. 14–19, 1999. Sekce o Rozšíření dotazu - Stručný, matematický přehled.
- R. Navigli, P. Velardi. Analýza strategií rozšiřování dotazů založených na ontologii. Proc. semináře o adaptivní těžbě textu a těžbě (ATEM 2003), v 14. evropská konference o strojovém učení (ECML 2003)„Cavtat-Dubrovnik, Chorvatsko, 22. – 26. Září 2003, s. 42–49 - Analýza metod rozšiřování dotazů, které se opírají o WordNet jako referenční ontologii.
- Y. Qiu a H.P. Frei. Koncepční rozšiřování dotazů. v Proceedings of SIGIR-93, 16. ACM International Conference on Research and Development in Information Retrieval„Pittsburgh, SIGIR Forum, ACM Press, červen 1993 - akademický dokument o konkrétní metodě rozšiřování dotazů
- Efthimis N. Efthimiadis. Rozšíření dotazu. In: Martha E. Williams (ed.), Roční přehled informačních systémů a technologií (ARIST), v31, s. 121–187, 1996 - Úvod pro méně technické diváky.