MeCab - MeCab - Wikipedia

MeCab
Vývojáři	Taku Kudou, Japonský vstup Google projekt
Stabilní uvolnění	0,996 / 18 února 2013; před 7 lety
Úložiště	github.com/ taku910/ mecab;
Napsáno	C ++, má moduly pro C, C#, Jáva, Perl, Krajta, a Rubín
Plošina	Cross-platform
Licence	Tri-licence pod GPL, LGPL a Licence BSD
webová stránka	https://taku910.github.io/mecab

MeCab je open-source segmentace textu knihovna pro použití s textem napsaným v japonština původně vyvinutý společností Nara Institute of Science and Technology a v současné době ho udržuje Taku Kudou (工藤拓) jako součást své práce na webu Japonský vstup Google projekt.^[1]^[2] Název je odvozen od oblíbeného jídla vývojáře, mekabu [ja ] (和布蕪), a Japonské jídlo vyrobeno z wakame listy.

Tento software byl původně založen na ChaSen a byl vyvinut pod názvem ChaSenTNG, ale nyní je vyvíjen nezávisle na ChaSen a byl přepsán od nuly. Přesnost analýzy MeCab je srovnatelná s ChaSen a její rychlost analýzy je v průměru 3–4krát rychlejší.

MeCab může analyzovat a segmentovat větu na její části řeči. Pro MeCab je k dispozici několik slovníků, ale IPADIC je nejčastěji používaný jako u ChaSen.

V roce 2007 Google generoval pomocí MeCab n-gram údaje pro velký korpus japonského textu, které zveřejnila na svém blogu Google Japan.^[3]

MeCab se také používá pro Japonský vstup na Mac OS X 10,5 a 10,6 a v iOS od verze 2.1.^[4]^[5]

Příklad

Vstup:

ウ ィ キ ペ デ ィ ア （Ｗｉｋｉｐｅｄｉａ） は 誰 で も 編 集 で き る フ リ ー 百科 事 典 で す

Výsledky v:

ウ ィ キ ペ デ ィ ア 名詞, 一般, *, *, *, *, * （記号, 括弧 開, *, *, *, *, （, （, （Ｗｉｋｉｐｅｄｉａ 名詞, 固有 名詞, 組織, *, *, *, *） 記号, 括弧 閉, *, *, *, *,）,）,） は 助詞, 係 助詞, *, *, *, *, は, ハ, ワ 誰 名詞, 代名詞, 一般, *, *, *, 誰, ダ レ, ダ レ で も 助詞, 副 助詞, *, *, *, *, で も, デ モ, デ モ 編 集 名詞, サ 変 接 続, *, *, *, *, 編 集, ヘ ン シ ュ ウ, ヘ ン シ ュ *, で き, , 一段, 基本 形, で き る, デ キ ル, デ キ ル フ リ ー 名詞, 一般, *, *, *, *, フ リ ー, フ リ ー, フ リ ー 百科 名詞, 一般, *, *, *, *, 百科, ヒ ャ ッ カ ヒ ヒ ヒ, , *, *, *, *, 事 典, ジ テ ン, ジ テ ン で す 助動詞, *, *, *, 特殊 ・ デ ス, 基本 形, で す, デ ス, デ ス EOS

Kromě segmentace textu MeCab také uvádí slovní část slova a případně i ve slovníku jeho výslovnost. Ve výše uvedeném příkladu je sloveso できる (dekiru, "být schopen") je klasifikován jako ichidan (一段) sloveso (動詞) v infinitivním čase (基本形). Slovo でも (ukázka) je identifikován jako příslovcová částice (副助詞). Protože ne všechny sloupce se vztahují na všechna slova, použije-li se sloupec na slovo, použije se hvězdička; to umožňuje formátovat informace za slovem a znak tabulátoru jako hodnoty oddělené čárkami.

MeCab také podporuje několik výstupních formátů; jeden z nich, honit, výstupy hodnoty oddělené tabulátorem ve formátu, pro který jsou programy psány ChaSen může použít. Jiný formát, yomi (od 読む yomu, číst), vydává výslovnost vstupního textu jako katakana,^[6] Jak je ukázáno níže.

ウ ィ キ ペ デ ィ ア （Ｗｉｋｉｐｅｄｉａ） ハ ダ レ デ モ ヘ ン シ ュ ウ デ キ ル フ リ ー ヒ ャ ッ カ ジ テ ン デ ス

Reference

^ „「ググる」の精度を高めるために必要なもの - ＠IT 自分戦略研究所“ [Co Google potřebuje ke zlepšení své přesnosti]. ITmedia (v japonštině). 2006-03-15. Citováno 2009-04-09.
^ „思いどおりの日本語入力 - Google 日本語入力“ [Směrem k přesnějšímu japonskému zadání]. Google (v japonštině). 2009-12-03. Citováno 2009-12-03.
^ „Google Japan Blog: 大規模日本語 n-gram データの公開“ [Publikace dat v gramech přes velký japonský textový korpus]. Google (v japonštině). 2007-11-01. Citováno 2009-04-09.
^ „大規模テキスト処理を支える形態素解析技術（工藤拓氏・） Google）“ [(Přednáška) Morfologická analýza podporuje zpracování textu ve velkém měřítku (pan Taku Kudou, zaměstnanec společnosti Google)] (v japonštině). 2009-12-03. Citováno 2009-12-03.
^ „iPhone の仮名漢字変換は MeCab を利用“ [iPhone používá ke konverzi kana-kanji MeCab] (v japonštině). 2009-12-03. Archivovány od originál dne 18. 9. 2008. Citováno 2009-12-03.
^ Kudou, Taku. „MeCab: Yet Another Part-of-Speech and Morphological Analyzer“. taku910.github.io (v japonštině). Citováno 23. ledna 2018.

externí odkazy

Oficiální webové stránky

[1] „「ググる」の精度を高めるために必要なもの - ＠IT 自分戦略研究所“ [Co Google potřebuje ke zlepšení své přesnosti]. ITmedia (v japonštině). 2006-03-15. Citováno 2009-04-09.

[2] „思いどおりの日本語入力 - Google 日本語入力“ [Směrem k přesnějšímu japonskému zadání]. Google (v japonštině). 2009-12-03. Citováno 2009-12-03.

[3] „Google Japan Blog: 大規模日本語 n-gram データの公開“ [Publikace dat v gramech přes velký japonský textový korpus]. Google (v japonštině). 2007-11-01. Citováno 2009-04-09.

[4] „大規模テキスト処理を支える形態素解析技術（工藤拓氏・） Google）“ [(Přednáška) Morfologická analýza podporuje zpracování textu ve velkém měřítku (pan Taku Kudou, zaměstnanec společnosti Google)] (v japonštině). 2009-12-03. Citováno 2009-12-03.

[5] „iPhone の仮名漢字変換は MeCab を利用“ [iPhone používá ke konverzi kana-kanji MeCab] (v japonštině). 2009-12-03. Archivovány od originál dne 18. 9. 2008. Citováno 2009-12-03.

[6] Kudou, Taku. „MeCab: Yet Another Part-of-Speech and Morphological Analyzer“. taku910.github.io (v japonštině). Citováno 23. ledna 2018.

[1]

[2]

[3]

[4]

[5]

[6]