【英語】 Text Mining
【読み】 テキストマイニング
データ解析
【英語】 Text Mining
【読み】 テキストマイニング
ニュース記事やSNSの書き込みなどの大量のテキストから有益な情報のみを取り出す分析手法。テキストに出現する大量の単語データから、少数の着目すべき単語データのみを抽出し、人が容易に解釈可能な程度の情報量にする。単語の頻度、文の長さ、特定の単語のあり/なしなどの集計を行い、可視化ツールを併用し、大量のテキストの概要を容易に把握することができる。
テキストマイニングとは
テキストマイニングとは、ニュース記事やSNSの書き込みなどの大量のテキストから有益な情報のみを取り出す分析手法である。文字情報のうち、とくに、非構造化文字列データを取り扱う。例えば、テキストに出現する単語の頻度集計を行い、出現頻度が高い単語のみに着目することである。この処理により、テキストに出現する大量の単語データから、少数の着目すべき単語データのみにすることで情報量の削減ができ、人が容易に解釈可能な状態になる。この考えが「砂金取り」と類似しているため、マイニング(採掘)と言われる所以である。
テキストマイニングの類似用語に、自然言語処理がある。テキストマイニングでは、「単語の頻度」、「文の長さ」、「特定の単語のあり/なし」などのマイニング(採掘)処理を行う。一方、自然言語処理では、「感情の識別」、「記事内容のジャンル分け」など非構造化文字列データの処理全般を示す。そのため、音声認識などは、テキストマイニングと呼ばない。
しかし、広義の意味でマイニング(採掘)を解釈し、「大量のテキストデータから課題解決のための有益な情報を引き出す」ことをテキストマイニングと呼ぶことも多い。このとき、自然言語処理は、テキストマイニングを実現するための具体的技術を指すときに用いる。
テキストマイニングにおけるデータ処理では、非構造化データを取り扱う。一般的に、非構造化データの処理は、構造化データに比べ複雑である。例えば、アンケート調査における自由記載欄は、テキストマイニングの対象の典型的な例である。自由記載欄に記入された文字データは、予め決められた選択肢から選ぶわけではないため、記載内容が全く同じ意味の場合でも、アンケート記入者により表現は様々である。このようなデータをテキストマイニング技術により処理することで、分析可能なデータへ加工することが可能である。
単語の分割
テキストデータの処理上の特徴として記載言語の依存性が強い。英語では、「I love you.」のように単語間にスペースを挿入するため、スペースを基準にして文字列を単語の集合に分割することができる。ただし、単に単語に分割しただけでは、「I loved you.」の「loved」と「I love you.」の「love」を同一視できないため、辞書データや文字解析ロジックなどにより、「loved→love」と変形させる必要がある。
日本語では、単語間の明確な区切りが存在しないため、文字列から単語ごとに分ける処理は容易ではない。さらに、例えば「日本語」という3文字の文字列は、詳細に分割した「日本」「語」の2つの単語(形態素)に分けることも、「日本語」という1つの単語(複合語)に分けることも可能である。どちらの分割方法にするかは、テキストデータの使用目的に応じて決める。例えば、国名の「日本」と言語の「日本語」を区別したい場合には複合語を選択する。複合語の処理では、過去のデータに存在しない場合でも処理対象となることがある。例えば、「埼玉オリンピック」という複合語は、架空の新規用語であるため、過去のデータを検索するだけでは、「埼玉」と「オリンピック」を結合することはできない。このような複合語でも、特別なロジックを構築することで、「埼玉オリンピック」という1単語にすることも可能である。
頻度集計
テキストマイニングでは、「大量のテキストデータから課題解決のための有益な情報を引き出す」ために、形態素分析や複合語分析で単語ごとに切り分けた後に、単語ごとの出現頻度集計を行うことが多い。この際、単純に単語の出現頻度からでは、有益な情報を引き出せるとは限らない。例えば、業務における電子メールの文面でテキストマイニングすることを考える。メール文面には、挨拶の記載(例:「お世話になっております。」)の定型文は非常に多いと推測される。そのため、「世話」の単語が出現する頻度は非常に高いであろう。知りたいのは、「世話」のような定型文に出現する単語ではなく、定型文以外でよく使われる単語(例:「納期」)であろう。このように、「出現頻度が高く、かつ、一般的すぎる単語を除外する」ために、テキストマイニングでは、様々な手法を用いて処理を行っている。例えば、tf-idfという手法では、「多くの文書で出現する頻度の高い単語」に対して“頻度“(重み付き頻度)を小さく評価する処理を行う。例えば、「世話」の出現頻度は高いが、出現する電子メール数も多いため、tf-idfでいう”頻度”は小さい。
精度評価
テキストマイニングにおける分析の難しさの一つに、分析精度の評価方法があげられる。正解が与えられているロジスティク回帰などでは、予測値と正解とを比較することで、適合率などの評価基準により明確に数値化できる。そのため、分析精度の判断が容易である。一方、テキストマイニングにおける単語の出現頻度集計や要約文抽出結果などでは、分析精度の判断基準に、人間の感覚に依存する部分もあるため、評価自体に若干曖昧さが残る。
一方で、上記のことを言い換えると、テキストマイニングの分析結果を可視化することで、人にとってインパクトが強い結果をもたらす。例えば、電子メールのテキストマイニングを実施することで、日常的に感覚として気付いてはいるが言語化できていなかった重要な単語が抽出されることがある。このような新しい気づきを発見できることが、AIの強みの一つである。