Piranha (software) - Piranha (software)
Piraňa je dolování textu systém vyvinutý pro Ministerstvo energetiky Spojených států (DOE) od Národní laboratoř v Oak Ridge (ORNL). Tento software zpracovává velké objemy nesouvisejících textových dokumentů a ukazuje mezi nimi vztahy, což je technika cenná v mnoha vědeckých a datových doménách, od podvodů ve zdravotnictví po národní bezpečnost. Výsledky jsou prezentovány v klastrech prioritního významu pro obchodní a vládní analytiky. Piranha používá metodu vážení termínu frekvence / inverzní korpus frekvence, která poskytuje silné paralelní zpracování textových informací, tedy schopnost analyzovat velmi velké sady dokumentů. Piranha má šest hlavních sil: Sbírání a těžba: Je možné sbírat miliony dokumentů z mnoha zdrojů, jako jsou databáze a sociální média, a extrahovat text ze stovek formátů souborů; Tato informace. pak lze přeložit do libovolného počtu jazyků.Ukládání a indexování: Dokumenty ve vyhledávacích serverech, relačních databázích atd. Lze libovolně ukládat a indexovat.Doporučuji: Doporučení nejcennějších informací pro konkrétní uživatele.Kategorizace: Seskupování položek pomocí metod strojového učení pod dohledem a částečně pod dohledem a cílených seznamů vyhledávání.Shlukování: Podobnost se používá k vytvoření hierarchické skupiny dokumentů.Vizualizace: Zobrazení vztahů mezi dokumenty, aby uživatelé mohli rychle rozpoznat připojení.
Výsledkem této práce bylo osm vydaných (9 256 649, 8 825 710, 8 473 314, 7 937 389, 7 805 446, 7 693 9037, 7 315 858, 7072 883) a několik komerčních licencí (včetně TextOre a Pro2Serve), spin-off společnosti s vynálezci, Covenant Health, a Pro2Serve s názvem VortexT Analytics, dvě ceny R&D 100 a skóre recenzovaných vědeckých publikací.
Reference
- Cui, X., Beaver, J., St. Charles, J., Potok, T. (září 2008). Proceedings of the IEEE Swarm Intelligence Symposium, St. Louis, Mo. Redukce rozměrů pro vysoce dimenzionální shlukování rojů částic.
- Yasin, Rutrell (29. listopadu 2012) GCN. Energetická laboratoř Piranha vkládá zuby do textové analýzy
- Franklin Jr., Curtis (30. listopadu 2012) Enterprise Efficiency. Piranha přináší vládě dostupné velké údaje
- Breeden II, John (7. prosince 2012) GCN. Plavání s Piranha: Testování nástroje pro textovou analýzu Oak Ridge
- Kirby, Bob (léto 2013) FedTech. Big Data mohou pomoci federální vládě pohnout horami. Zde je návod.
- RM Patton, BG Beckerman, TE Potok, G. Tourassi, „Systém doporučení pro vyhledávání na webu a zdokonalování informací, které hledají radiologové“, Radiologická společnost Severní Ameriky (RSNA), výroční zasedání 2012, listopad 2012, Chicago, IL , USA.
- R. M. Patton, T. E. Potok, B. A. Worley, „Discovery & Refinement of Scientific Information via a recommender system“, Druhá mezinárodní konference o pokročilé komunikaci a výpočtu, říjen 2012, Benátky, Itálie.
- JW Reed, TE Potok a RM Patton, „Multiagentní systém pro distribuovanou klastrovou analýzu“, ve sborníku ze třetího mezinárodního workshopu o softwarovém inženýrství pro rozsáhlé multiagentní systémy (SELMAS'04) „Workshop W16L - 26. mezinárodní Konference o softwarovém inženýrství Edinburgh, Skotsko, Velká Británie: IEE, 2004, s. 152-5.
- J. Reed, Y. Jiao, TE Potok, B. Klump, M. Elmore a AR Hurson, „TF-ICF: New Term Weighting Scheme for Clustering Dynamic Data Streams,“ ve sborníku z 5. mezinárodní konference o strojovém učení a Aplikace (ICMLA'06). sv. 0 ORLANDO, FL, 2006, s. 258–263.
Ocenění
- Cena časopisu 100 R&D za rok 2007 Piranha (software)
Patenty
- US patent 7 072 883 – Systém pro sběr a shrnutí informací o internetu
- US patent 7 315 858 – Metoda shromažďování a sumarizace informací o internetu
- US patent 7 693 903
- US patent 7 805 446 – Metoda založená na agentech pro distribuované shlukování textových informací
- US patent 7 937 389 – Dynamické zmenšení rozměrů vektoru dokumentu v systému vyhledávání a načítání dokumentů
- US patent 8 473 314 – Metoda a systém pro stanovení prekurzorů zdravotních abnormalit ze zpracování lékařských záznamů
externí odkazy
- Portál energetické inovace DOE (2014) Agentový software pro shromažďování a sumarizaci textových a internetových informací.
- Web společnosti ORNL Piranha