MAREC - MAREC - Wikipedia
The MAtrixware REVyhledávání Cvýběr (MAREC) je standardizovaný korpus patentových dat dostupný pro výzkumné účely. MAREC se snaží zastupovat patentové dokumenty v několika jazycích, aby mohl odpovědět na konkrétní výzkumné otázky.[1][2] Skládá se z 19 milionů patentových dokumentů v různých jazycích, normalizovaných na vysoce konkrétní XML schéma.[3]
MAREC je určen jako surovina pro výzkum v oblastech, jako je vyhledávání informací, zpracování přirozeného jazyka nebo strojový překlad, které vyžadují velké množství složitých dokumentů.[4] Sbírka obsahuje dokumenty v 19 jazycích, většinou v angličtině, němčině a francouzštině, a přibližně polovina dokumentů obsahuje plný text.
V MAREC jsou dokumenty z různých zemí a zdrojů normalizovány na běžný formát XML s jednotným schématem číslování patentů a formátem citace. Standardizovaná pole zahrnují data, země, jazyky, reference, jména osob a společnosti a také klasifikace předmětů, jako je IPC kódy.[5]
MAREC je srovnatelný korpus, kde je k dispozici mnoho dokumentů v podobných verzích v jiných jazycích. Srovnatelný korpus lze definovat jako sestávající z textů, které sdílejí podobná témata - text zpráv ze stejného časového období v různých zemích, zatímco paralelní korpus je definován jako soubor dokumentů se sladěnými překlady ze zdrojového do cílového jazyka.[6] Protože patentový dokument odkazuje na stejný „vynález“ nebo „koncept myšlenky“, text je překladem vynálezu, ale nemusí se jednat o přímý překlad samotného textu - textové části mohly být odstraněny nebo přidány pro důvody objasnění.[7]
19 386 697 souborů XML měří celkem 621 GB a jsou hostovány serverem Zařízení pro získávání informací. Přístup a podpora jsou pro výzkumné účely bezplatné.
Případy užití
- MAREC se používá v Online překlady patentů (PLuTO) projekt.
Reference
- ^ Merz C., (2003) Corpus Query Tool for Syntaktically Annotated Corpora Licentiate Thesis, The University of Zurich, Department of Computation linguistic, Švýcarsko
- ^ Biber D., Conrad S. a Reppen R. (2000) Corpus Linguistics: Investigating Language Structure and Use. Cambridge University Press, 2. vydání
- ^ „MAREC, University of Technology Vienna“. www.ifs.tuwien.ac.at. Citováno 1. prosince 2020.
- ^ Manning, C. D. a Schütze, H. (2002) Základy statistického zpracování přirozeného jazyka Cambridge, MA, Massachusetts Institute of Technology (MIT) ISBN 0-262-13360-1.
- ^ Evropský patentový úřad (2009) Pokyny pro zkoumání v Evropském patentovém úřadu, Zveřejněno Evropským patentovým úřadem, Německo (duben 2009)
- ^ Järvelin A., Talvensaari T., Järvelin Anni, (2008) Data driven methods for improved mono- and cross-lingual IR performance in noisy environments, Proceedings of the second workshop on Analytics for noisy unstructured text data, (Singapore)
- ^ Taleb, A .; Legrand, J .; Takache, H .; Taha, S .; Pruvost, J. (2017). „Vyšetřování produkce lipidů dusíkem vyhladověnou Parachlorella kessleri za nepřetržitého osvětlení a denních / nočních cyklů pro aplikaci bionafty“. Journal of Applied Phycology. 30 (2): 761–772. doi:10.1007 / s10811-017-1286-0. S2CID 13925039. Citováno 1. prosince 2020.