Seznam softwaru pro těžbu textu - List of text mining software
Dolování textu počítačové programy jsou k dispozici od mnoha komerční a otevřený zdroj společnosti a zdroje.
Komerční
- Angoss - Angoss Text Analytics poskytuje subjekt a extrakce témat, kategorizace témat, analýza sentimentu a shrnutí dokumentu schopnosti prostřednictvím vestavěných
- AUTINDEX - je komerční softwarový balíček pro těžbu textů založený na sofistikované lingvistice od IAI (Institute for Applied Information Sciences), Saarbrücken.
- Autonomie - software pro těžbu, shlukování a kategorizaci textu
- Averbis - poskytuje software pro textovou analýzu, klastrování a kategorizaci, stejně jako správu terminologie a podnikové vyhledávání
- Základní technologie - poskytuje sadu modulů pro textovou analýzu k identifikaci jazyka, povolení vyhledávání ve více než 20 jazycích, extrahování entit a efektivnímu vyhledávání a překladu entit.
- DigitalMR - nástroj pro poslech sociálních médií a nástroj pro analýzu textu a obrázků pro průzkum trhu
- Endeca Technologies - poskytuje software pro analýzu a shlukování nestrukturovaného textu.
- Skóre FICO - přední poskytovatel analytiky.
- Obecný sentiment - Platforma sociální inteligence, která využívá zpracování přirozeného jazyka objevit vztahy mezi fanoušky značek s fanoušky tradičních televizních pořadů v sociálních médiích. Samostatná textová analýza k zachycení základny sociálních znalostí o miliardách témat uložených do roku 2004.
- IBM LanguageWare - sada IBM pro textovou analýzu (nástroje a Runtime).
- IBM SPSS - poskytovatel Modeler Premium (dříve nazývaný IBM SPSS Modeler a IBM SPSS Text Analytics), který obsahuje pokročilé možnosti textové analýzy založené na NLP (vícejazyčný sentiment, událost a fakta), které lze použít ve spojení s Predictive Modeling. Textová analýza pro průzkumy poskytuje možnost kategorizovat odpovědi průzkumu pomocí funkcí založených na NLP pro další analýzu nebo vytváření přehledů.
- Inxight - poskytovatel textové analytiky, vyhledávání a nestrukturovaných vizualizačních technologií. (Inxight koupil Obchodní objekty který koupil SAP AG v roce 2008).
- Language Computer Corporation - nástroje pro extrakci a analýzu textu, které jsou k dispozici ve více jazycích.
- Lexalytics - poskytovatel enginu pro textovou analýzu používaného v monitoringu sociálních médií, hlasu zákazníka, analýze průzkumu a dalších aplikacích. Salience Engine. Tento software poskytuje jedinečnou schopnost sloučit výstup nestrukturované textové analýzy se strukturovanými daty a poskytnout tak další prediktivní proměnné pro vylepšené prediktivní modely a asociační analýzu.
- Lingvistika - poskytovatel zpracování přirozeného jazyka (NLP) podnikový software pro těžbu a analýzu textu I2E pro získávání znalostí a podporu rozhodování.
- Mathematica - poskytuje integrované nástroje pro zarovnání textu, porovnávání vzorů, shlukování a sémantickou analýzu. Vidět Wolfram jazyk, programovací jazyk Mathematica.
- MATLAB nabízí Text Analytics Toolbox pro import textových dat, jejich převod do numerické formy pro použití při strojovém a hlubokém učení, analýze sentimentu a klasifikačních úlohách.[1]
- Medallia - nabízí jeden systém záznamu pro průzkum, sociální, textovou, písemnou a online zpětnou vazbu.
- NetOwl - sada vícejazyčných produktů pro analýzu textu a entit, včetně extrakce entit, extrakce odkazů a událostí, analýzy sentimentu, geotaggingu, překladu jmen, shody jmen a rozlišení identity.
- RapidMiner s rozšířením pro zpracování textu - software pro těžbu dat a textu.
- SAS - SAS Text Miner and Teragram; software pro komerční analýzu textu, zpracování přirozeného jazyka a taxonomický software používaný pro Správa informací.
- Skica Engine - korpusový manažer a analytický software poskytující tvorbu textové korpusy z nahraných textů nebo z webu včetně značení části řeči a lemmatizace nebo detekce konkrétního webu.[2]
- Smartlogic - semafor; Platforma Content Intelligence obsahující analýzu komerčního textu, zpracování přirozeného jazyka, klasifikaci založenou na pravidlech, modelování ontologie / taxonomie a vizualizační software používaný pro Správa informací.
- Sysomos - poskytovatel softwarové platformy pro analýzu sociálních médií, včetně textové analýzy a analýzy sentimentu v online spotřebitelských konverzacích.
- WordStat - Doplňkový modul pro analýzu obsahu a dolování textu z QDA Miner pro analýzu velkého množství textových dat.
Otevřený zdroj
- Mrkev2 - rámec shlukování textů a výsledků vyhledávání.
- BRÁNA - obecná architektura pro textové inženýrství, open-source sada nástrojů pro zpracování přirozeného jazyka a jazykové inženýrství.
- Gensim - rozsáhlé modelování témat a extrakce sémantických informací z nestrukturovaného textu (Krajta ).
- Sada nástrojů pro přirozený jazyk (NLTK) - sada knihoven a programů pro symbolické a statistické zpracování přirozeného jazyka (NLP) pro Krajta programovací jazyk.
- OpenNLP - zpracování přirozeného jazyka.
- oranžový s jeho doplňkem pro dolování textu.
- Stanbol - otevřený zdroj pro těžbu textu zaměřený na správu sémantického obsahu.
- Programovací jazyk R poskytuje rámec pro aplikace pro dolování textu v balíčku tm.[3] Zobrazení úlohy Zpracování přirozeného jazyka obsahuje tm a další balíčky knihoven pro dolování textu.[4]
- The KNIME Rozšíření pro zpracování textu.
- The PLOS Sbírka těžby textu.[5]
- Voyant Tools - webové prostředí pro textovou analýzu, vytvořené jako vědecký projekt.
- spaCy - open-source knihovna pro zpracování přirozeného jazyka pro Python
- KH Coder - pro kvantitativní analýzu obsahu nebo těžbu textu
Reference
- ^ „Tool Analytics Toolbox“. mathworks.com. Citováno 2019-07-10.
- ^ „Analýza textu pomocí nástroje Sketch Engine“. Skica Engine. LEXICAL COMPUTING CZ s.r.o. 14. prosince 2017. Citováno 17. ledna 2018.
- ^ „Úvod do balíčku tm: Těžba textu v R“ (PDF).
- ^ Wild, Fridolin (20. února 2020). „Zobrazení úlohy CRAN: Zpracování přirozeného jazyka“ - přes cran.rstudio.com. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ „Obsah: Těžba textu“. PLOS. doi:10.1371 / issue.pcol.v01.i14 (neaktivní 2020-10-23). Citovat deník vyžaduje
| deník =
(Pomoc)CS1 maint: DOI neaktivní od října 2020 (odkaz)