テキストマイニングでは、日本語をコンピュータが扱える情報に変換するため、「形態素解析」と呼ばれる技術が使われます。形態素解析とは、自然言語で書かれた文を形態素(言語で意味を持つ最小単位)の列に分割し、品詞を見分ける作業のことです。一般的には参照する情報源として対象言語の文法の知識(ここでは文法のルールの集まり)と辞書(品詞等の情報付きの単語リスト)を用いることになります。これにより、単語の単位で頻度を集計し、文章の特徴を把握することができるようになります。
しかしながら、一般的な形態素解析では辞書に対する依存度が高いため、辞書に新しい語を都度追加する必要があったり、意味のある単位よりも細かく切り分けすぎてしまったりという問題があります。
例)「携帯電話」は一塊で意味を持つ言葉なのに対して、形態素解析を行うと、「携帯」「電話」というように、細かい単位に分けすぎてしまい、携帯電話という概念が消えてしまいます。
複合語(ふくごうご)とは、合成語の解分類の一つで、語構成において2つ以上の内容形態素によって形成された語をいいます。(http://ja.wikipedia.org/wiki/複合語) 複数の形態素を意味のある単位でまとめることを複合語解析と呼びます。
複合語解析では、文章内の単語の出現パターンを認識して、形態素同士を結合し意味のある単位でキーワードの抽出を行うことで、結果的により人間の感覚に沿った、より理解しやすい分析結果を得ることができます。
複合語解析技術
・品詞の並びパターンに着目して、意味のある単位に単語を再構成。
・辞書にない単語を抽出できる。
― 複合語解析例 ―
たとえば、形態素のみで解析すると「六本木ヒルズ」という単語があった場合
「六本木」、「ヒルズ」と別々の単語として認識してしまいます。
ここで複合語作成を行うと、きちんと「六本木ヒルズ」がひとつの単語として、意味のある単位で解析が行えます。
※一般的な形態素解析の問題点
・形態素解析時に単語を細かく切り分けすぎる。
→辞書を適切な語の単位で作成する必要がある。
⇒辞書登録の必要があるため、新語への対応が後手に回る。
複合語エンジンでは、辞書にない単語を自動的に抽出可能。
複合語解析サービスのデモをこちらからご体験いただけます。形態素解析と複合語解析の違いをご覧ください。
お問い合わせは、下記ボタンよりお問い合わせください。
世界を革新する挑戦者に、成功を支援する会社
情報通信業