bodais 自動進化型データ解析
クラウドプラットフォーム

03-5259-9004 受付:平日10:00~18:00 

自然言語処理/テキストマイニング(複合語解析)

テキストマイニングとは・・・

テキストマイニングのマイニング(mining)とは、「発掘(Mine)」という意味で、テキストの山から価値ある情報を掘り出す、といった意味が込められています。 価値ある情報を発掘するという意味で、データマイニングの手法の一種とも言えます。

日本語は記述上、英語のように単語を分かち書き(文章において語のくぎりに空白を挟んで記述する)をするという習慣はありません。このため、日本語を用いたテキストではまず、定型化されていない文章の集まりを、自然言語解析の手法を使って単語やフレーズに分割します。その上で単語やフレーズの出現頻度や相関関係を分析して、有用な情報を抽出することになります。 テキストマイニングでは、ルールに従って分析することにより、単語間の関係や時系列の変化などを抽出してゆきます。こうして、業務上の問題点を把握したり、製品の評価を調べたり、特に多い問い合わせやクレームを見出したり、さらにこれらが時系列にどう変遷しているかを調べたり、分析・解析することができるようになります。

日本では、業務関連データやデータベース(DB)は数多く存在し、そのほとんどがそのまま自然文のデータ(テキスト文)の蓄積という形で存在しています。例えば、営業日報や自由記述のアンケート、コールセンターでの顧客とオペレータのやり取りの記録、メーリングリストのログなどです。 これらは意味のある形で数値化や定型化することが難しいため、担当者が一つ一つ目を通して読んで内容を把握して分析することになります。このため分析・解析するには時間がかかってしまい、DBを効果的効率的に活用することは難しさがたくさんあります。

テキストマイニングでは、膨大に蓄積されたテキストデータを単語やフレーズに分解し、これらの関係を一定のルールに従って分析することにより、単語間の関係や時系列の変化などを抽出していきます。

テキストマイニングの有用性

企業に蓄積されているデータのうち、8割以上がテキストデータであると言われています。近年、このデータが活用できているか、できていないかが業績に大きく影響するようになってきています。

例えば、アンケートの自由回答やコールセンターのログ、Webサイト上のユーザ書き込み、営業日報などを解析することによって、顧客や市場のニーズを抽出したり、自社商品やサービスの評判を分析したり、業務上の問題点を把握したりすることができます。また、これらが時系列にどう変遷しているかを調べることも可能となっています。

テキストマイニングは、大量の形式化されていないテキスト集合(文書数で数百万)から、自然言語処理の手法によって重要なテキスト群を抽出し、それらをデータマイニングの手法によって解析して、役に立つ知識や情報を獲得する分析手法の総称で、人が読むだけでは得られない、発見的な知識獲得が可能です。

形態素解析と複合語解析

テキストマイニングでは、日本語をコンピュータが扱える情報に変換するため、「形態素解析」と呼ばれる技術が使われます。形態素解析とは、自然言語で書かれた文を形態素(言語で意味を持つ最小単位)の列に分割し、品詞を見分ける作業のことです。一般的には参照する情報源として対象言語の文法の知識(ここでは文法のルールの集まり)と辞書(品詞等の情報付きの単語リスト)を用いることになります。これにより、単語の単位で頻度を集計し、文章の特徴を把握することができるようになります。

しかしながら、一般的な形態素解析では辞書に対する依存度が高いため、辞書に新しい語を都度追加する必要があったり、意味のある単位よりも細かく切り分けすぎてしまったりという問題があります。
例)「携帯電話」は一塊で意味を持つ言葉なのに対して、形態素解析を行うと、「携帯」「電話」というように、細かい単位に分けすぎてしまう。

当社の複合語解析技術の場合、文章内の単語の出現パターンを認識して、形態素同士を結合し意味のある単位でキーワードの抽出を行います。結果的により人間の感覚に沿った、より理解しやすい分析結果を得ることができます。当社のご提供するテキストマイニングソリューションの基本部分として、本技術が組み込まれています。

複合語解析概念図

●文章をテキスト入力

複合語解析概念図
複合語解析 エンジン
alow alow

●複合語と品詞を2列で出力

複合語解析概念図

使ってみる(デモ)

下記のテキストフィールドに文章(300文字まで認識)を入れ、解析ボタンを押すと名詞を抽出しその単語とそこから得られる複合語を表示します。これはもっとも単純な複合語の技術を用いています。

<テキスト入力エリア> ※コピー&ペーストでテキストを入力してください。

形態素解析結果

 

複合語解析結果

 

お客様のご意見をお聞かせください。