テキストマイニングでは、日本語をコンピュータが扱える情報に変換するため、「形態素解析」と呼ばれる技術が使われます。形態素解析とは、自然言語で書かれた文を形態素(言語で意味を持つ最小単位)の列に分割し、品詞を見分ける作業のことです。一般的には参照する情報源として対象言語の文法の知識(ここでは文法のルールの集まり)と辞書(品詞等の情報付きの単語リスト)を用いることになります。これにより、単語の単位で頻度を集計し、文章の特徴を把握することができるようになります。
しかしながら、一般的な形態素解析では辞書に対する依存度が高いため、辞書に新しい語を都度追加する必要があったり、意味のある単位よりも細かく切り分けすぎてしまったりという問題があります。
例)「携帯電話」は一塊で意味を持つ言葉なのに対して、形態素解析を行うと、「携帯」「電話」というように、細かい単位に分けすぎてしまう。
当社の複合語解析技術の場合、文章内の単語の出現パターンを認識して、形態素同士を結合し意味のある単位でキーワードの抽出を行います。結果的により人間の感覚に沿った、より理解しやすい分析結果を得ることができます。当社のご提供するテキストマイニングソリューションの基本部分として、本技術が組み込まれています。
お問い合わせは、下記ボタンよりお問い合わせください。
世界を革新する挑戦者に、成功を支援する会社
情報通信業