Seznam softwaru pro těžbu textu - List of text mining software

Dolování textu počítačové programy jsou k dispozici od mnoha komerční a otevřený zdroj společnosti a zdroje.

Komerční

  • Angoss - Angoss Text Analytics poskytuje subjekt a extrakce témat, kategorizace témat, analýza sentimentu a shrnutí dokumentu schopnosti prostřednictvím vestavěných
  • AUTINDEX - je komerční softwarový balíček pro těžbu textů založený na sofistikované lingvistice od IAI (Institute for Applied Information Sciences), Saarbrücken.
  • Autonomie - software pro těžbu, shlukování a kategorizaci textu
  • Averbis - poskytuje software pro textovou analýzu, klastrování a kategorizaci, stejně jako správu terminologie a podnikové vyhledávání
  • Základní technologie - poskytuje sadu modulů pro textovou analýzu k identifikaci jazyka, povolení vyhledávání ve více než 20 jazycích, extrahování entit a efektivnímu vyhledávání a překladu entit.
  • DigitalMR - nástroj pro poslech sociálních médií a nástroj pro analýzu textu a obrázků pro průzkum trhu
  • Endeca Technologies - poskytuje software pro analýzu a shlukování nestrukturovaného textu.
  • Skóre FICO - přední poskytovatel analytiky.
  • Obecný sentiment - Platforma sociální inteligence, která využívá zpracování přirozeného jazyka objevit vztahy mezi fanoušky značek s fanoušky tradičních televizních pořadů v sociálních médiích. Samostatná textová analýza k zachycení základny sociálních znalostí o miliardách témat uložených do roku 2004.
  • IBM LanguageWare - sada IBM pro textovou analýzu (nástroje a Runtime).
  • IBM SPSS - poskytovatel Modeler Premium (dříve nazývaný IBM SPSS Modeler a IBM SPSS Text Analytics), který obsahuje pokročilé možnosti textové analýzy založené na NLP (vícejazyčný sentiment, událost a fakta), které lze použít ve spojení s Predictive Modeling. Textová analýza pro průzkumy poskytuje možnost kategorizovat odpovědi průzkumu pomocí funkcí založených na NLP pro další analýzu nebo vytváření přehledů.
  • Inxight - poskytovatel textové analytiky, vyhledávání a nestrukturovaných vizualizačních technologií. (Inxight koupil Obchodní objekty který koupil SAP AG v roce 2008).
  • Language Computer Corporation - nástroje pro extrakci a analýzu textu, které jsou k dispozici ve více jazycích.
  • Lexalytics - poskytovatel enginu pro textovou analýzu používaného v monitoringu sociálních médií, hlasu zákazníka, analýze průzkumu a dalších aplikacích. Salience Engine. Tento software poskytuje jedinečnou schopnost sloučit výstup nestrukturované textové analýzy se strukturovanými daty a poskytnout tak další prediktivní proměnné pro vylepšené prediktivní modely a asociační analýzu.
  • Lingvistika - poskytovatel zpracování přirozeného jazyka (NLP) podnikový software pro těžbu a analýzu textu I2E pro získávání znalostí a podporu rozhodování.
  • Mathematica - poskytuje integrované nástroje pro zarovnání textu, porovnávání vzorů, shlukování a sémantickou analýzu. Vidět Wolfram jazyk, programovací jazyk Mathematica.
  • MATLAB nabízí Text Analytics Toolbox pro import textových dat, jejich převod do numerické formy pro použití při strojovém a hlubokém učení, analýze sentimentu a klasifikačních úlohách.[1]
  • Medallia - nabízí jeden systém záznamu pro průzkum, sociální, textovou, písemnou a online zpětnou vazbu.
  • NetOwl - sada vícejazyčných produktů pro analýzu textu a entit, včetně extrakce entit, extrakce odkazů a událostí, analýzy sentimentu, geotaggingu, překladu jmen, shody jmen a rozlišení identity.
  • RapidMiner s rozšířením pro zpracování textu - software pro těžbu dat a textu.
  • SAS - SAS Text Miner and Teragram; software pro komerční analýzu textu, zpracování přirozeného jazyka a taxonomický software používaný pro Správa informací.
  • Skica Engine - korpusový manažer a analytický software poskytující tvorbu textové korpusy z nahraných textů nebo z webu včetně značení části řeči a lemmatizace nebo detekce konkrétního webu.[2]
  • Smartlogic - semafor; Platforma Content Intelligence obsahující analýzu komerčního textu, zpracování přirozeného jazyka, klasifikaci založenou na pravidlech, modelování ontologie / taxonomie a vizualizační software používaný pro Správa informací.
  • Sysomos - poskytovatel softwarové platformy pro analýzu sociálních médií, včetně textové analýzy a analýzy sentimentu v online spotřebitelských konverzacích.
  • WordStat - Doplňkový modul pro analýzu obsahu a dolování textu z QDA Miner pro analýzu velkého množství textových dat.

Otevřený zdroj

  • Mrkev2 - rámec shlukování textů a výsledků vyhledávání.
  • BRÁNA - obecná architektura pro textové inženýrství, open-source sada nástrojů pro zpracování přirozeného jazyka a jazykové inženýrství.
  • Gensim - rozsáhlé modelování témat a extrakce sémantických informací z nestrukturovaného textu (Krajta ).
  • Sada nástrojů pro přirozený jazyk (NLTK) - sada knihoven a programů pro symbolické a statistické zpracování přirozeného jazyka (NLP) pro Krajta programovací jazyk.
  • OpenNLP - zpracování přirozeného jazyka.
  • oranžový s jeho doplňkem pro dolování textu.
  • Stanbol - otevřený zdroj pro těžbu textu zaměřený na správu sémantického obsahu.
  • Programovací jazyk R poskytuje rámec pro aplikace pro dolování textu v balíčku tm.[3] Zobrazení úlohy Zpracování přirozeného jazyka obsahuje tm a další balíčky knihoven pro dolování textu.[4]
  • The KNIME Rozšíření pro zpracování textu.
  • The PLOS Sbírka těžby textu.[5]
  • Voyant Tools - webové prostředí pro textovou analýzu, vytvořené jako vědecký projekt.
  • spaCy - open-source knihovna pro zpracování přirozeného jazyka pro Python
  • KH Coder - pro kvantitativní analýzu obsahu nebo těžbu textu

Reference

  1. ^ „Tool Analytics Toolbox“. mathworks.com. Citováno 2019-07-10.
  2. ^ „Analýza textu pomocí nástroje Sketch Engine“. Skica Engine. LEXICAL COMPUTING CZ s.r.o. 14. prosince 2017. Citováno 17. ledna 2018.
  3. ^ „Úvod do balíčku tm: Těžba textu v R“ (PDF).
  4. ^ Wild, Fridolin (20. února 2020). „Zobrazení úlohy CRAN: Zpracování přirozeného jazyka“ - přes cran.rstudio.com. Citovat deník vyžaduje | deník = (Pomoc)
  5. ^ „Obsah: Těžba textu“. PLOS. doi:10.1371 / issue.pcol.v01.i14 (neaktivní 2020-10-23). Citovat deník vyžaduje | deník = (Pomoc)CS1 maint: DOI neaktivní od října 2020 (odkaz)

externí odkazy