Zařízení pro získávání informací - Information Retrieval Facility
![]() | tento článek obsahuje obsah, který je napsán jako reklama.Květen 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |

The Zařízení pro získávání informací (IRF), založená 2006 a umístěná v Vídeň, Rakousko, byla výzkumná platforma pro vytváření sítí a spolupráci pro profesionály v oboru vyhledávání informací. V roce 2012 ukončila svoji činnost.
IRF měla členy v následujících kategoriích:
- Výzkumní pracovníci v vyhledávání informací (IR) nebo související vědecké oblasti
- Profesionálové pro správu průmyslových / podnikových informací
- Patentové úřady a vládní instituce
- Studenti jednoho z výše uvedených
Vědecká rada
- Maristella Agosti, Profesore, Katedra informačního inženýrství, University of Padova
- Gerhard Budin, Ředitel Centrum překladatelských studií na vídeňské univerzitě, Ředitel Katedra korpuslingvistiky a textové technologie, Rakouská akademie věd
- Jamie Callan, Profesore, Institute of Language Technologies, CMU, Carnegie Mellon University
- Yves ChiaramellaEmeritní profesor, Katedra informatiky a aplikované matematiky, Univerzita Josepha Fouriera
- Kilnam Chon, Profesor, katedra informatiky, KAIST (Korea Advanced Institute of Science and Technology )
- W. Bruce Croft, Význačný profesor, Ústav výpočetní techniky a ředitel Centra pro inteligentní IR University of Massachusetts Amherst
- Hamish Cunningham, Profesor výzkumu, Oddělení informatiky University Sheffield
- Norbert Fuhr, Předseda vědecké rady, profesor, Institute of Informatics and Interactive Systems University Duisburg-Essen
- David Hawking, Vedoucí vědy, vedoucí projektu, CSIRO ICT centrum
- Noriko Kando, Profesore, Výzkum softwarového inženýrství, divize softwarového výzkumu, Národní institut informatiky (NII)
- Arcot Desai NarasimhaluProděkan, School of Information Systems Singapore Management University
- John Tait, Hlavní vědecký pracovník IRF, Do července 2007 profesor inteligentních informačních systémů a proděkan Fakulty výpočetní techniky
- Benjamin T'sou, Ředitel, Centrum pro výzkum jazykových informací, City University of Hong Kong
- C. J. van Rijsbergen, Katedra informatiky na University of Glasgow
Vědecké cíle
- Modelování inovativních a specializovaných systémů pro vyhledávání informací pro globální sbírky patentových dokumentů.
- Zkoumání a vývoj adekvátní technické infrastruktury, která umožňuje interaktivní experimenty s formálními, matematickými koncepty vyhledávání pro velmi rozsáhlé sbírky dokumentů. <
- Studium použitelnosti multimodálních uživatelských rozhraní pro velmi rozsáhlé systémy vyhledávání informací.
- Integrace skutečných uživatelů se skutečnými informačními potřebami do procesu výzkumu modelování systémů pro vyhledávání informací, aby bylo možné přesné vyhodnocení výkonu.
- Schopnost vytvářet různé pohledy na patentová data v závislosti na zaměření informační potřeby.
- Definování standardizovaných metod pro srovnávání procesu získávání informací ve sbírkách patentových dokumentů.
- Schopnost zacházet s textovými a netextovými částmi patentu soudržným způsobem.
- Navrhování, experimentování a hodnocení vyhledávačů schopných načítat strukturované a polostrukturované dokumenty ve velmi rozsáhlých patentových sbírkách.
- Integrace časové dimenze patentových dokumentů do strategií vyhledávání.
- Zlepšení účinnosti a přesnosti vyhledávání patentů na základě ontologií a technik porozumění přirozenému jazyku.
- Zpřesnění IR metod, které umožňují nestrukturované dotazování využitím dostupné struktury v patentových dokumentech.
- Formální (matematická) identifikace a specifikace příslušných obchodních informačních potřeb v oblasti informací o duševním vlastnictví.
- Zkoumání účinných mechanismů škálování pro získávání informací s přihlédnutím k charakteristikám patentových údajů.
- Vyšetřování a experimentování s výpočetními architekturami pro správu informací s velmi vysokou kapacitou.
- Zavádění otevřené eScience platforma, která umožňuje standardizovaný a snadný způsob vytváření a provádění IR experimentů na společné výzkumné infrastruktuře.
- Objevování a vyšetřování nových případů použití a obchodních aplikací odvozených z informací o duševním vlastnictví.
- Umožnění formálního vyhledávání informací, výzkumu přirozeného jazyka a sémantického zpracování růst do oblasti aplikovaných věd v globálním průmyslovém kontextu.
- Vývoj a integrace různých metod přístupu k informacím.
- Výzkum účinných metod interaktivního získávání informací.
Sémantická superpočítač
Současné technologie pro extrakci konceptů z nestrukturovaných dokumentů jsou extrémně výpočetně náročné. Aby bylo možné interaktivní experimentování s korpusy s bohatým a velkým textem, IRF vybudovalo vysoce výkonné výpočetní prostředí, do kterého byly implementovány nejnovější technologické pokroky:
- víceuzlové klastry (aktuálně 80 jader, až 1024)
- nejrychlejší propojovací technologie
- jediný systémový obraz s velkou složenou pamětí (aktuálně 320 GB, až 4 TB)
- plně integrovaný konfigurovatelný výpočetní systém (aktuálně 4 FPGA jádra, až 256)
Kombinace těchto funkcí HPC k urychlení dolování textu představuje implementaci IRF sémantického superpočítače.
Světový patentový korpus
Cílem IRF je přinést do komunity profesionálů v oblasti patentových informací nejmodernější technologii vyhledávání informací. Očekáváme, že technologie získávání informací (IR) se brzy stane středem informačních technologií. Všechna průmyslová odvětví mohou těžit z aplikace moderních a budoucích procesů těžby textu na speciální požadavky patentového výzkumu. Ačkoli jsou všechny myšlenky a koncepty univerzálně použitelné pro všechny druhy informací o duševním vlastnictví, patenty vyžadují maximální propracovanost a konfrontují nás s náročnými technickými a organizačními problémy. Celá skupina dokumentů souvisejících s patenty možná představuje největší soubor složených dokumentů, což z ní činí odměňující cíl pro vědce v oboru těžby textu i pro koncové uživatele. A co víc, patenty se staly zásadní otázkou, zejména pro velké globální korporace a univerzity. Průmysloví uživatelé patentových dat patří mezi nejnáročnější a nejdůležitější informační profesionály. V důsledku toho by mohli těžit nejvíce z technologie, která zmírňuje břemeno výzkumu velkého množství patentových informací.
Výzkumné sbírky
IRF poskytuje řadu sbírek testovacích dat, které byly vyvinuty IRF, jedním z jejích členů nebo třetími stranami. Tyto sběry dat lze volně používat pro vědecké experimenty.
Kolekce MAtrixware REsearch (MAREC ) je první standardizovaný korpus patentových údajů pro výzkumné účely. Skládá se z 19 milionů patentových dokumentů v různých jazycích, normalizovaných do vysoce specifického formátu XML. Kolekce byla vyvinuta společností Matrixware pro IRF.
ClueWeb09[Citace je zapotřebí ] kolekce je 25 terabajtový datový soubor s přibližně 1 miliardou webových stránek procházených v lednu a únoru 2009. Byl vytvořen Ústavem jazykových technologií na adrese Univerzita Carnegie Mellon podporovat výzkum v oblasti získávání informací a souvisejících technologií v oblasti lidských jazyků.
Reference
- Patentová medicína pro vyhledávače informací, Information World Review
- IRF a jeho role v profesionálním informačním výzkumu, ECIR 2008