Lemurský projekt - Lemur Project
![]() | tento článek příliš spoléhá na Reference na primární zdroje.Srpna 2011) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The Lemurský projekt je spolupráce mezi Centrem pro inteligentní získávání informací při University of Massachusetts Amherst a Ústav jazykových technologií na Univerzita Carnegie Mellon. Projekt Lemur vyvíjí vyhledávače, panely nástrojů prohlížeče, nástroje pro analýzu textu a datové zdroje, které podporují výzkum a vývoj softwaru pro vyhledávání a těžbu textu. Projekt je nejlépe známý svými vyhledávacími stroji Indri a Galago, datovými sadami ClueWeb09 a ClueWeb12 a knihovnou RankLib Learning-to-Rank. Software a datové sady se široce používají ve vědeckých a výzkumných aplikacích i v některých komerčních aplikacích.
Filozofie vývoje softwaru Lemur Project zdůrazňuje nejmodernější přesnost, flexibilitu a efektivitu. Například vyhledávací stroj Indri poskytuje přesné vyhledávání velkých textových sbírek „out of the box“ a data se ukládají přístupným způsobem, aby podporovaly vývoj nových strategií načítání. Software z projektu Lemur je distribuován pod open-source licencemi, které poskytují flexibilitu vědcům a vývojářům softwaru.
Programovací jazyky použité k vytvoření Lemur jsou C, C ++, a Jáva, a dodává se spolu se zdrojovými soubory a pokyny k sestavení. Poskytnutý zdrojový kód lze upravit za účelem vývoje nových knihoven. Je kompatibilní s různými operačními systémy, které zahrnují Linux a Windows.
Funkce
Lemur podporuje následující funkce:
- Indexování:
- Anglický, čínský a arabský text
- Slovo pramenící
- Přestaň slova
- Tokenizace
- Průchodné a přírůstkové indexování
- Načtení:
- Ad hoc vyhledávání (TF-IDF a InQuery)
- Průchod a vícejazyčné vyhledávání
- Jazykové modelování
- Aktualizace modelu dotazu
- Dvoustupňové vyhlazování
- Relevantní zpětná vazba
- Strukturovaný dotazovací jazyk
- Divoká karta shoda termínů
- Distribuované IR:
- Vzorkování založené na dotazech
- Hodnocení na základě databáze (CORI)
- Sloučení výsledků
- Klastrování dokumentů
- Shrnutí
- Jednoduché zpracování textu
Součásti
Lemur Project má následující komponenty:
- Indri vyhledávač v C ++
- Rámec výzkumu vyhledávače Galago v Javě
- Učící se knihovna RankLib
- Aplikace pro těžbu dat Sifaka
- Datové sady ClueWeb09 a ClueWeb12
- Panel nástrojů Protokol dotazů
Nejnovější verze
Aktualizace komponent Lemur Project se provádějí dvakrát ročně, v červnu a prosinci. Nejnovější verze vyhledávacího modulu Indri je 5,17. Nejnovější verze vyhledávacího modulu Galago je verze 3.18. Nejnovější verze LearningLibu pro učení hodnostní knihovna je 2,14. Nejnovější verze aplikace pro dolování dat Sifaka je 1,8.
Indri vyhledávač
Vyhledávací stroj Indri je jednou z komponent vyvinutých projektem Lemur. Je to otevřený zdroj. Dotazovací jazyk používaný v Indri umožňuje výzkumníkům indexovat data nebo strukturovat dokumenty pomocí jednoduchých pokynů z příkazového řádku. Indri nabízí flexibilitu, pokud jde o přizpůsobení různým současným aplikacím. Může být také distribuován napříč clusterem uzlů pro vysoký výkon. Vyhledávací stroj Indri dokáže zpracovat velké soubory dat a porozumět různým formátům dat HTML a XML.
Indri API podporuje různé programovací a skriptovací jazyky jako C ++, Jáva, C#, a PHP.
Vlastnosti vyhledávače Indri
- Může využívat více reprezentací dokumentů
- Vážení výslovných termínů
- Robustní dotazovací jazyk
- Formálně dobře uzemněný
- Vysoce efektivní
- Lze efektivně implementovat
Viz také
externí odkazy
![]() | Tento bezplatný open source software článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |