SpaCy - SpaCy
Původní autoři | Matthew Honnibal |
---|---|
Vývojáři | Exploze AI, různé |
První vydání | Února 2015[1] |
Stabilní uvolnění | 2.3.4 / 26. listopadu 2020[2] |
Náhled verze | 3.0.0rc2 / 26. října 2020[2] |
Úložiště | |
Napsáno | Krajta, Cython |
Operační systém | Linux, Okna, Operační Systém Mac, OS X |
Plošina | Cross-platform |
Typ | Zpracování přirozeného jazyka |
Licence | Licence MIT |
webová stránka | prostorný |
spaCy (/sstreɪˈsiː/ vykastrovat-VIDĚT ) je open-source softwarová knihovna pro pokročilé zpracování přirozeného jazyka, napsané v programovacích jazycích Krajta a Cython.[3][4] Knihovna je publikována pod Licence MIT a jeho hlavní vývojáři jsou Matthew Honnibal a Ines Montani, zakladatelé softwarové společnosti Explosion.
Na rozdíl od NLTK, který je široce používán pro výuku a výzkum, se spaCy zaměřuje na poskytování softwaru pro produkční použití.[5][6] Od verze 1.0 spaCy také podporuje hluboké učení pracovní toky[7] které umožňují připojení statistických modelů trénovaných populárními strojové učení knihovny jako TensorFlow, PyTorch nebo MXNet prostřednictvím vlastní knihovny strojového učení Thinc.[8][9] Použití Thinc jako jeho backend, spaCy funkce konvoluční neuronová síť modely pro značení části řeči, syntaktická analýza závislostí, kategorizace textu a uznání pojmenované entity (NER). Předem sestavené statistické údaje nervová síť modely k provedení těchto úkolů jsou k dispozici pro angličtinu, němčinu, řečtinu, španělštinu, portugalštinu, francouzštinu, italštinu, nizozemštinu, litevštinu a norštinu a existuje také vícejazyčný model NER. Další podpora pro tokenizace pro více než 50 jazyků umožňuje uživatelům také trénovat vlastní modely na svých vlastních datových sadách.[10]
Hlavní rysy
- Nedestruktivní tokenizace
- Rozpoznání pojmenované entity
- Podpora „tokenizace alfa“ pro více než 50 jazyků[11]
- Statistické modely pro 11 jazyků[12]
- Předškolení slovní vektory
- Značení části řeči
- Označené závislost analýza
- Na základě syntaxe členění vět
- Klasifikace textu
- Integrované vizualizéry pro syntax a pojmenované entity
- Hluboké učení integrace
Rozšíření a vizualizéry
spaCy přichází s několika rozšířeními a vizualizacemi, které jsou k dispozici zdarma, open-source knihovny:
- Thinc: A strojové učení knihovna optimalizovaná pro procesor využití a hluboké učení se zadáváním textu.
- sense2vec: Knihovna pro výpočet podobnosti slov, založená na Word2vec a sense2vec.[13]
- displaCy: An open-source závislost analyzovat strom vizualizér postavený s JavaScript, CSS a SVG.
- posunutíORL: An open-source pojmenovaná entita vizualizér postavený s JavaScript a CSS.
Reference
- ^ „Představujeme spaCy“. výbuch. Citováno 2016-12-18.
- ^ A b „Uvolnění - exploze / spaCy“. Citováno 26. listopadu 2020 - přes GitHub.
- ^ Choi a kol. (2015). Závisí to: Porovnání analyzátoru závislostí pomocí webového nástroje pro vyhodnocení.
- ^ „Nová umělá inteligence Google těmto větám nerozumí.. Washington Post. Citováno 2016-12-18.
- ^ „Fakta a čísla - spaCy“. spacy.io. Citováno 2020-04-04.
- ^ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). „Multidisciplinární výuka pomocí sady nástrojů pro přirozený jazyk“ (PDF). Proceedings of the Third Workshop on the Issues in Teaching Computational Linguistics, ACL.
- ^ „exploze / spaCy“. GitHub. Citováno 2016-12-18.
- ^ „PyTorch, TensorFlow a MXNet“. thinc.ai. Citováno 2020-04-04.
- ^ „exploze / tenkost“. GitHub. Citováno 2016-12-30.
- ^ "Modely a jazyky | Dokumentace k použití spaCy". spacy.io. Citováno 2020-03-10.
- ^ „Modely a jazyky - spaCy“. spacy.io. Citováno 2020-03-10.
- ^ "Modely a jazyky | Dokumentace k použití spaCy". spacy.io. Citováno 2020-03-10.
- ^ Trask a kol. (2015). sense2vec - rychlá a přesná metoda pro disambiguaci slovních smyslů při vkládání neurálních slov.