MeCab - MeCab - Wikipedia
Vývojáři | Taku Kudou, Japonský vstup Google projekt |
---|---|
Stabilní uvolnění | 0,996 / 18 února 2013 |
Úložiště | ![]() |
Napsáno | C ++, má moduly pro C, C#, Jáva, Perl, Krajta, a Rubín |
Plošina | Cross-platform |
Licence | Tri-licence pod GPL, LGPL a Licence BSD |
webová stránka | https://taku910.github.io/mecab |
MeCab je open-source segmentace textu knihovna pro použití s textem napsaným v japonština původně vyvinutý společností Nara Institute of Science and Technology a v současné době ho udržuje Taku Kudou (工藤 拓) jako součást své práce na webu Japonský vstup Google projekt.[1][2] Název je odvozen od oblíbeného jídla vývojáře, mekabu (和 布 蕪), a Japonské jídlo vyrobeno z wakame listy.
Tento software byl původně založen na ChaSen a byl vyvinut pod názvem ChaSenTNG, ale nyní je vyvíjen nezávisle na ChaSen a byl přepsán od nuly. Přesnost analýzy MeCab je srovnatelná s ChaSen a její rychlost analýzy je v průměru 3–4krát rychlejší.
MeCab může analyzovat a segmentovat větu na její části řeči. Pro MeCab je k dispozici několik slovníků, ale IPADIC je nejčastěji používaný jako u ChaSen.
V roce 2007 Google generoval pomocí MeCab n-gram údaje pro velký korpus japonského textu, které zveřejnila na svém blogu Google Japan.[3]
MeCab se také používá pro Japonský vstup na Mac OS X 10,5 a 10,6 a v iOS od verze 2.1.[4][5]
Příklad
Vstup:
ウ ィ キ ペ デ ィ ア (Wikipedia) は 誰 で も 編 集 で き る フ リ ー 百科 事 典 で す
Výsledky v:
ウ ィ キ ペ デ ィ ア 名詞, 一般, *, *, *, *, * (記号, 括弧 開, *, *, *, *, (, (, (Wikipedia 名詞, 固有 名詞, 組織, *, *, *, *) 記号, 括弧 閉, *, *, *, *,),),) は 助詞, 係 助詞, *, *, *, *, は, ハ, ワ 誰 名詞, 代名詞, 一般, *, *, *, 誰, ダ レ, ダ レ で も 助詞, 副 助詞, *, *, *, *, で も, デ モ, デ モ 編 集 名詞, サ 変 接 続, *, *, *, *, 編 集, ヘ ン シ ュ ウ, ヘ ン シ ュ *, で き, , 一段, 基本 形, で き る, デ キ ル, デ キ ル フ リ ー 名詞, 一般, *, *, *, *, フ リ ー, フ リ ー, フ リ ー 百科 名詞, 一般, *, *, *, *, 百科, ヒ ャ ッ カ ヒ ヒ ヒ, , *, *, *, *, 事 典, ジ テ ン, ジ テ ン で す 助動詞, *, *, *, 特殊 ・ デ ス, 基本 形, で す, デ ス, デ ス EOS
Kromě segmentace textu MeCab také uvádí slovní část slova a případně i ve slovníku jeho výslovnost. Ve výše uvedeném příkladu je sloveso で き る (dekiru, "být schopen") je klasifikován jako ichidan (一段) sloveso (動詞) v infinitivním čase (基本 形). Slovo で も (ukázka) je identifikován jako příslovcová částice (副 助詞). Protože ne všechny sloupce se vztahují na všechna slova, použije-li se sloupec na slovo, použije se hvězdička; to umožňuje formátovat informace za slovem a znak tabulátoru jako hodnoty oddělené čárkami.
MeCab také podporuje několik výstupních formátů; jeden z nich, honit, výstupy hodnoty oddělené tabulátorem ve formátu, pro který jsou programy psány ChaSen může použít. Jiný formát, yomi (od 読 む yomu, číst), vydává výslovnost vstupního textu jako katakana,[6] Jak je ukázáno níže.
ウ ィ キ ペ デ ィ ア (Wikipedia) ハ ダ レ デ モ ヘ ン シ ュ ウ デ キ ル フ リ ー ヒ ャ ッ カ ジ テ ン デ ス
Reference
- ^ „「 グ グ る 」の 精度 を 高 め る た め に 必要 な も の - @IT 自 分 戦 略 研究所“ [Co Google potřebuje ke zlepšení své přesnosti]. ITmedia (v japonštině). 2006-03-15. Citováno 2009-04-09.
- ^ „思 い ど お り の 日本語 入 力 - Google 日本語 入 力“ [Směrem k přesnějšímu japonskému zadání]. Google (v japonštině). 2009-12-03. Citováno 2009-12-03.
- ^ „Google Japan Blog: 大規模 日本語 n-gram デ ー タ の 公開“ [Publikace dat v gramech přes velký japonský textový korpus]. Google (v japonštině). 2007-11-01. Citováno 2009-04-09.
- ^ „大規模 テ キ ス ト 処理 を 支 え る 形態 素 解析 技術 (工藤 拓 氏 ・) Google)“ [(Přednáška) Morfologická analýza podporuje zpracování textu ve velkém měřítku (pan Taku Kudou, zaměstnanec společnosti Google)] (v japonštině). 2009-12-03. Citováno 2009-12-03.
- ^ „iPhone の 仮 名 漢字 変 換 は MeCab を 利用“ [iPhone používá ke konverzi kana-kanji MeCab] (v japonštině). 2009-12-03. Archivovány od originál dne 18. 9. 2008. Citováno 2009-12-03.
- ^ Kudou, Taku. „MeCab: Yet Another Part-of-Speech and Morphological Analyzer“. taku910.github.io (v japonštině). Citováno 23. ledna 2018.