Mrkev2 - Carrot2
![]() Výsledky vyhledávání na webu seskupeny pomocí mrkve2algoritmus Lingo. | |
Vývojáři | Hledání mrkve |
---|---|
Stabilní uvolnění | 4.0.0 / 15. července 2020 |
Úložiště | github |
Napsáno | Jáva |
Operační systém | Cross-platform |
Typ | Dolování textu a shluková analýza |
Licence | Licence BSD |
webová stránka | Vyhledávání |
Mrkev²[1] je otevřený zdrojový clusterovací modul výsledků hledání.[2] Může automaticky shluk malé sbírky dokumentů, např. výsledky vyhledávání nebo abstrakty dokumentů do tematických kategorií. Carrot² je napsán v Javě a distribuován pod Licence BSD.
Dějiny
Počáteční verze aplikace Carrot² byla implementována v roce 2001 Dawidem Weissem v rámci jeho magisterské práce k ověření použitelnosti klastrového algoritmu STC na výsledky vyhledávání v klastrech v polštině.[3] V roce 2003 byla přidána řada dalších algoritmů shlukování výsledků vyhledávání, včetně Lingo,[4] nový algoritmus shlukování textu navržený speciálně pro shlukování výsledků vyhledávání. Zatímco zdrojový kód Carrot² byl k dispozici od roku 2002, teprve v roce 2006 byla oficiálně vydána verze 1.0. Ve stejném roce byla vydána verze 2.0 s vylepšeným uživatelským rozhraním a rozšířenou sadou nástrojů. V roce 2009 přinesla verze 3.0 významná vylepšení v kvalitě klastrování, zjednodušené API a nová aplikace GUI pro vyladění klastrování na základě Eclipse Bohatá klientská platforma. V roce 2020 přinesla verze 4.0.0 zjednodušení API, vyčištění kódu a odstranění zastaralých ukázkových nástrojů (Workbench).
Uvolnění | Datum vydání | Hlavní změny a nové funkce |
---|---|---|
4.0.0 | Červenec 2020 | Změny a zjednodušení API v rámci databáze. Odstranění zastaralých technologií a nástrojů. Nová dokumentace a vyčištění kódu. |
3.16.2 | Září 2019 | Aktualizujte knihovny třetích stran (problémy související se zabezpečením). |
3.16.1 | Ledna 2019 | Aktualizace vizualizací JS. Migrace rozhraní Microsoft Bing API v5 na v7. |
3.16.0 | Květen 2018 | Generální oprava problémů s kompatibilitou Java 9+. Kompatibilita pracovního stolu pro distribuce Ubuntu. Aktualizace a odebrání zdrojů dokumentů nefunkčních zdrojů dokumentů. |
3.15.1 | Březen 2017 | Oprava chyby pro vydání .NET, která by mohla mít za následek nekontrolované I / O výjimky v nepřístupném aktuálním pracovním adresáři. |
3.15.0 | Říjen 2016 | Přechod Bing API V2 na V5. Upgrade závislostí třetích stran. Interní kosmetika. |
3.14.0 | Září 2016 | Vylepšení pracovního stolu (vysoká podpora DPI, vylepšení MacOSX, opravy chyb). PubMed přepíná na HTTP. Další drobná vylepšení. |
3.13.0 | Červenec 2016 | Opravy chyb rozhraní Servlet API, opravy chyb Workbench, odstraněný zdroj dokumentů Google, opravené kódy jazyků pro několik jazyků. |
3.12.0 | Únor 2016 | Upgrade polského slovníku Morfologik, změny infrastruktury a úpravy umožňující C2 fungovat podle přísnějších zásad správce zabezpečení. |
3.11.0 | Říjen 2015 | Upgrade Apache Lucene, opravy chyb a kumulativní změny od nezletilých 3.10.x. |
3.10.4 | Říjen 2015 | Upgrade knihovny Morfologik. |
3.10.3 | Srpna 2015 | Přebalit Google Guava, aby nedocházelo ke konfliktům v Solr. |
3.10.2 | Červenec 2015 | Drobné opravy Workbench (arabské zobrazení clusteru). |
3.10.1 | Květen 2015 | Vizualizace Aduna klesla z distribuce MacOS. Drobné opravy Workbench. |
3.10.0 | Květen 2015 | Aktualizace vizualizace. Oprava chyb. Aktualizace závislostí knihovny. |
3.9.4 | Listopadu 2014 | Aktualizace FoamTree. Nové atributy pro vícejazyčné klastrování. Opravy vizualizace. |
3.9.3 | Červenec 2014 | Aktualizace FoamTree. Opravy a vylepšení infrastruktury (jflex, adresy URL repozitáře sonatype). |
3.9.2 | Dubna 2014 | Oprava chyby na FoamTree HTML5. |
3.9.1 | Dubna 2014 | Opravy chyb, upgrady vizualizací HTML5. |
3.9.0 | únor 2014 | Vizualizace HTML5 nahrazující flash, aktualizace závislostí knihoven, opravy chyb. |
3.8.1 | Říjen 2013 | Opravy chyb, drobné vylepšení funkcí. |
3.8.0 | červenec 2013 | Opravy chyb, aktualizace závislostí na knihovnách. |
3.7.1 | Květen 2013 | Opravy drobných chyb (vydání pro údržbu verze 3.7.0). |
3.7.0 | duben 2013 | Změny infrastruktury v jádru (ID řetězců), lepší integrace Solr XSLT, vylepšení Workbench pro větší vstupy, aktualizované závislosti. |
3.6.3 | duben 2013 | Drobné opravy chyb a vylepšení: přizpůsobení adaptéru Solr XSLT, vylepšení Workbench pro větší vstupy, aktualizované závislosti. |
3.6.2 | Listopad 2012 | Opravy a vylepšení drobných chyb. |
3.6.1 | Srpna 2012 | Opravy drobných chyb. |
3.6.0 | Červen 2012 | Infrastrukturální změny, refaktorování a opravy chyb. |
3.5.3 | Prosinec 2011 | Aktualizace infrastruktury vyplývající z migrace na GitHub. Aktualizace pracovního stolu na SWT 3.7.1. |
3.5.2 | Září 2011 | Podpora Ajaxu na serveru Clustering dokumentů, vylepšený zdroj dokumentů Bing, vylepšení Workbench, opravy chyb. |
3.5.1 | Červen 2011 | Opravy chyb, vylepšení integrace vizualizace, podpora pro API Yahoo BOSS odstraněna. |
3.5.0 | Květen 2011 | Vizualizace FoamTree, rozdělování shluků k-means, vylepšení správy zdrojů |
3.4.3 | Březen 2011 | Distribuce do Maven centrální úložiště |
3.4.2 | Říjen 2010 | Oprava chyb |
3.4.1 | Září 2010 | Balíček kompatibility Solr 1.4.x, opravy chyb |
3.4.0 | Srpna 2010 | .NET API pro volání clusterů Carrot² |
3.3.0 | Duben 2010 | Významné vylepšení škálovatelnosti v algoritmu shlukování STC |
3.2.0 | Březen 2010 | Experimentální podpora pro shlukování arabského a korejského obsahu, aplikace příkazového řádku pro shlukování v dávkovém režimu, LGPL -licencované závislosti odstraněny |
3.1.0 | Září 2009 | Experimentální podpora pro shlukování čínského obsahu, plugin pro shlukování výsledků vyhledávání pro Apache Solr |
3.1.0 | Září 2009 | Experimentální podpora pro shlukování čínského obsahu, plugin pro shlukování výsledků vyhledávání pro Apache Solr |
3.0.1 | Březen 2009 | Workbench pro shlukování dokumentů k dispozici pro Mac OS X |
3.0.0 | Leden 2009 | Přidán Workbench pro shlukování dokumentů pro snadné experimentování s klastrováním Carrot², radikálně zjednodušené rozhraní Java API, opětovné implementace shlukování výsledků vyhledávání, webová aplikace, uživatelská příručka[5] dostupný |
2.1.0 | Srpna 2007 | Přidán server pro shlukování dokumentů pro vystavení shlukování jako ZBYTEK servis |
2.0.0 | Září 2006 | Nové uživatelské rozhraní klastrující webové aplikace s výsledky vyhledávání |
1.0.0 | Leden 2006 | První oficiální vydání, binární soubory k dispozici na SourceForge |
0.0.0 | od roku 2002 | Inkubační vydání, zdrojový kód k dispozici na SourceForge |
Architektura
Carrot² 4.0 je převážně programovací knihovna Java s veřejnými API pro správu jazykově specifických zdrojů, konfiguraci a provádění algoritmů. Pro interoperabilitu s jinými jazyky je k dispozici komponenta HTTP / REST (server pro shlukování dokumentů).
Shlukovací algoritmy
Carrot² nabízí několik algoritmů shlukování dokumentů, které kladou důraz na kvalitu štítků klastrů:
- Žargon:[4] shlukovací algoritmus založený na Rozklad singulární hodnoty
- STC:[6] Příponový strom Shlukování
Spin-off
Hledání mrkve
Hledání mrkve,[7] komerční spin-off projektu Carrot², pracuje na dalším vývoji Carrot², nabízí algoritmus shlukování textu v reálném čase[8] v souladu s rámcem Carrot² i poradenské služby v oblasti těžby textu založené na otevřeném zdrojovém a proprietárním softwaru.
Laboratoře pro vyhledávání mrkve
Carrot² dal vzniknout řadě nezávislých open source projektů vydaných pod záštitou Carrot Search Labs.[9] V rámci této iniciativy jsou nebo byly zveřejněny následující projekty:
- Randomizované testování: testovací běžec JUnit s integrovanými obslužnými programy, díky nimž je každý test trochu odlišný (randomizovaný). Také úkol ANT pro spouštění testů JUnit na paralelních JVM, s vyrovnáváním zátěže a dalšími zvonky a píšťalkami.
- High Performance Primitive Collections for Java (HPPC): Seznamy, sady, mapy a další sbírky primitiv pro Java vyladěné pro nejvyšší výkon a efektivitu paměti.
- SmartSprites: plně automatická údržba spritů CSS; žádné zdlouhavé kopírování a vkládání do CSS při přidávání nebo změně spritovaných obrázků.
Ukončené projekty:
- jSuffixArrays: Několik implementací Java datové struktury Suffix Array s různými charakteristikami výkonu a paměti.
- JUnitBenchmarks: Sada rozšíření pro přeměnu testů JUnit4 na mikro-měřítka výkonu s monitorováním GC, měřením časové odchylky a jednoduchými grafickými vizualizacemi.
Viz také
Portál svobodného softwaru
Reference
- ^ Projekt Carrot2, Stanislaw Osinski, Dawid Weiss. „Carrot2 - Open Source Search Results Clustering Engine“.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Mrkev2 ukázka shlukování výsledků vyhledávání
- ^ Dawid Weiss: Klastrované rozhraní pro výsledky vyhledávání na webu v polštině a angličtině. Magisterská práce. Poznaňská technická univerzita, Poznaň, Polsko, 2001 stáhnout PDF
- ^ A b Stanisław Osiński, Dawid Weiss: Konceptem řízený algoritmus pro shlukování výsledků vyhledávání. Inteligentní systémy IEEE, květen / červen, 3. (sv. 20), 2005, s. 48–54.
- ^ „Mrkev2“.
- ^ Oren Zamir, Oren Etzioni: Klastrování webových dokumentů: Demonstrace proveditelnosti„Sborník 21. ročníku mezinárodní konference ACM SIGIR o výzkumu a vývoji v získávání informací (1998), s. 46–54
- ^ Mrkev Search s.c. „Carrot Search: software pro shlukování a vizualizaci dokumentů“.
- ^ Mrkev Search s.c. "Mrkev Hledání: Lingo3G: Nástroj pro shlukování textových dokumentů".
- ^ Mrkev Search s.c. „Laboratoře pro vyhledávání mrkve“.