LINE の Data Labs(データラボ)で自然言語処理に関連する技術に関わっている @overlast (佐藤 敏紀) です。この記事は、LINE Advent Calendar 2016 の 15 記事目です。 この記事をお読みの方には「LINE と自然言語処理って関係あるの?」と思われる方もいらっしゃる思います。 Data Labs ではデータ収集・解析基盤の開発や機械学習技術の適用だけでなく、自然言語処理に関する実用的な技術の開発・研究を、かなり真面目におこなっており、その成果によって弊社のお客様のお役に立つことは当然として、他社さまや研究者、学生さんにも広く貢献したいと考えております。 はじめに 今回は、私が作っている mecab-ipadic-NEologd とその効果について、このブログで一回も書いていなかったので書きます。 mecab-ipadic-NEologd は形態素解析エンジン MeCab と共に使う単語分かち書き辞書で、週2回以上更新更新され、新語・固有表現に強く、語彙数が多く、しかもオープンソース・ソフトウェアである という特徴があります。 この記事では、mecab-ipadic-NEologd の分書分類タスクにおける有効性を確認する実験をおこない、その結果として「安心して最新版の mecab-ipadic-NEologd を使って大丈夫」という結論を得たことについて書きました。 色々な方々が頑張って下さっているおかげで mecab-ipadic-NEologd は Kuromoji からも使える様になっており、川田さん(@hktechno)による 6 記事目、(Elasticsearch を検索エンジンとして利用する際のポイント)の記事に出てきた「Elasticsearch のすごいところは、大量のドキュメントの中から形態素解析や n-gram など自然言語的な解析を行った上で(略)」という部分にも関係してきます。 この記事は、自然言語処理が必要そうな仕事をなさっているエンジニアさんにオススメの記事ですので、最後まで読んで頂いたり、「新語や未知語が足りない問題」などで困っているお仲間にオススメして頂けると、とても嬉しいです。 例文:「彼女はペンパイナッポーアッポーペンと恋ダンスを踊った。」 形態素解析エンジン MeCab (メカブ) は日本語のテキストを解析する際に、「形態素」という普通の単語よりも少し細かい単位でそのテキストを区切ります。MeCab は形態素解析をする際に辞書を使っていて、IPADIC(アイピーエーディック) と UniDic(ユニディック) という名前の辞書が有名です。 まずは例文を MeCab + IPADIC で処理した結果を確認しましょう。私の環境ではこの様に出力されました。 「ペンパイナッポーアッポーペン」という曲名は「未知語(辞書に無い単語)」として処理されました。MeCab は未知語に読み仮名を勝手に付与しないので、簡単に未知語を見分けることができます。 ドラマのエンディングで新垣結衣さんらが披露したことで有名になったダンスの「恋ダンス」という通称は 恋 ダンス の様に、2つの IPADIC に採録されている名詞として分割されました。 助詞 :「は」「と」「を」 動詞 :「踊る」の連用形 助動詞 :「た」 などの名詞以外の形態素も得られました。 形態素解析時に固有名詞が分割されてしまう4つの理由 「ペンパイナッポーアッポーペン」や「恋ダンス」の様に、文字列からイメージできる実体が複数の人物間でほとんど同じであり、他の名詞と明確に区別可能な固有の呼び名になっている名詞を「固有名詞」と呼びます。国名、地名、建物名、店名、人名、グループ名、法人名、書籍名、曲名などは固有名詞になりやすいです。 MeCab + IPADIC によって固有名詞が複数の形態素に分割される理由は多々あるのですが、そのうち分かりやすい4つの理由を挙げます(詳しい解説は省略)。 理由1. IPADIC や UniDic は形態素解析のための辞書 理由2. IPADIC や UniDic は更新の頻度が低い(または更新停止状態) 理由3. 形態素解析と固有表現抽出は別の研究トピック 理由4. 未知語を検出するにはデータが必要 このような理由が今後も消えないことを前提として、固有名詞がバラバラになる問題を少しでも解決するためには、 形態素単位での単語分割にこだわらず、固有名詞を1単語として分割する 定期的に更新して、現実の状況を反映する よく使われる固有名詞にはあらかじめ対応する 未知語は見つかり次第対応する という方針で分かち書き処理を改善するための言語資源を作り、さらに、この方針が悪影響を与えない様にするため、 既存の形態素解析の結果が実用上正しい時は尊重する という状態を実現できれば良さそうだと考えました。 mecab-ipadic-NEologd を使いましょう mecab-ipadic-NEologd は形態素解析用の辞書ではなく「単語分かち書き」用の辞書です。 この辞書を使って分割した際の単語の粒度が形態素になるか分からないので、単語分かち書きと呼んでいます。 mecab-ipadic-NEologd には以下のような4つの特徴があります。 IPADIC では複数の形態素に分割されてしまう固有表現を採録 (…)
↧