Lemurský projekt - Lemur Project

The Lemurský projekt je spolupráce mezi Centrem pro inteligentní získávání informací při University of Massachusetts Amherst a Ústav jazykových technologií na Univerzita Carnegie Mellon. Projekt Lemur vyvíjí vyhledávače, panely nástrojů prohlížeče, nástroje pro analýzu textu a datové zdroje, které podporují výzkum a vývoj softwaru pro vyhledávání a těžbu textu. Projekt je nejlépe známý svými vyhledávacími stroji Indri a Galago, datovými sadami ClueWeb09 a ClueWeb12 a knihovnou RankLib Learning-to-Rank. Software a datové sady se široce používají ve vědeckých a výzkumných aplikacích i v některých komerčních aplikacích.

Filozofie vývoje softwaru Lemur Project zdůrazňuje nejmodernější přesnost, flexibilitu a efektivitu. Například vyhledávací stroj Indri poskytuje přesné vyhledávání velkých textových sbírek „out of the box“ a data se ukládají přístupným způsobem, aby podporovaly vývoj nových strategií načítání. Software z projektu Lemur je distribuován pod open-source licencemi, které poskytují flexibilitu vědcům a vývojářům softwaru.

Programovací jazyky použité k vytvoření Lemur jsou C, C ++, a Jáva, a dodává se spolu se zdrojovými soubory a pokyny k sestavení. Poskytnutý zdrojový kód lze upravit za účelem vývoje nových knihoven. Je kompatibilní s různými operačními systémy, které zahrnují Linux a Windows.

Funkce

Lemur podporuje následující funkce:

Indexování:
- Anglický, čínský a arabský text
- Slovo pramenící
- Přestaň slova
- Tokenizace
- Průchodné a přírůstkové indexování
Načtení:
- Ad hoc vyhledávání (TF-IDF a InQuery)
- Průchod a vícejazyčné vyhledávání
- Jazykové modelování
  - Aktualizace modelu dotazu
  - Dvoustupňové vyhlazování
- Relevantní zpětná vazba
- Strukturovaný dotazovací jazyk
- Divoká karta shoda termínů
Distribuované IR:
- Vzorkování založené na dotazech
- Hodnocení na základě databáze (CORI)
- Sloučení výsledků
Klastrování dokumentů
Shrnutí
Jednoduché zpracování textu

Součásti

Lemur Project má následující komponenty:

Indri vyhledávač v C ++
Rámec výzkumu vyhledávače Galago v Javě
Učící se knihovna RankLib
Aplikace pro těžbu dat Sifaka
Datové sady ClueWeb09 a ClueWeb12
Panel nástrojů Protokol dotazů

Nejnovější verze

Aktualizace komponent Lemur Project se provádějí dvakrát ročně, v červnu a prosinci. Nejnovější verze vyhledávacího modulu Indri je 5,17. Nejnovější verze vyhledávacího modulu Galago je verze 3.18. Nejnovější verze LearningLibu pro učení hodnostní knihovna je 2,14. Nejnovější verze aplikace pro dolování dat Sifaka je 1,8.

Indri vyhledávač

Vyhledávací stroj Indri je jednou z komponent vyvinutých projektem Lemur. Je to otevřený zdroj. Dotazovací jazyk používaný v Indri umožňuje výzkumníkům indexovat data nebo strukturovat dokumenty pomocí jednoduchých pokynů z příkazového řádku. Indri nabízí flexibilitu, pokud jde o přizpůsobení různým současným aplikacím. Může být také distribuován napříč clusterem uzlů pro vysoký výkon. Vyhledávací stroj Indri dokáže zpracovat velké soubory dat a porozumět různým formátům dat HTML a XML.

Indri API podporuje různé programovací a skriptovací jazyky jako C ++, Jáva, C#, a PHP.

Vlastnosti vyhledávače Indri

Může využívat více reprezentací dokumentů
Vážení výslovných termínů
Robustní dotazovací jazyk
Formálně dobře uzemněný
Vysoce efektivní
Lze efektivně implementovat

Viz také

Seznam knihoven pro vyhledávání informací

externí odkazy

Web Lemur Project

Tento bezplatný open source software článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to.