【英語】 Text Mining

【読み】 テキストマイニング

用語解説

ニュース記事やSNSの書き込みなどの大量のテキストから有益な情報のみを取り出す分析手法。テキストに出現する大量の単語データから、少数の着目すべき単語データのみを抽出し、人が容易に解釈可能な程度の情報量にする。単語の頻度、文の長さ、特定の単語のあり/なしなどの集計を行い、可視化ツールを併用し、大量のテキストの概要を容易に把握することができる。

テキストマイニングとは
テキストマイニングとは、ニュース記事やSNSの書き込みなどの大量のテキストから有益な情報のみを取り出す分析手法である。文字情報のうち、とくに、非構造化文字列データを取り扱う。例えば、テキストに出現する単語の頻度集計を行い、出現頻度が高い単語のみに着目することである。この処理により、テキストに出現する大量の単語データから、少数の着目すべき単語データのみにすることで情報量の削減ができ、人が容易に解釈可能な状態になる。この考えが「砂金取り」と類似しているため、マイニング(採掘)と言われる所以である。
 テキストマイニングの類似用語に、自然言語処理がある。テキストマイニングでは、「単語の頻度」、「文の長さ」、「特定の単語のあり/なし」などのマイニング(採掘)処理を行う。一方、自然言語処理では、「感情の識別」、「記事内容のジャンル分け」など非構造化文字列データの処理全般を示す。そのため、音声認識などは、テキストマイニングと呼ばない。
しかし、広義の意味でマイニング(採掘)を解釈し、「大量のテキストデータから課題解決のための有益な情報を引き出す」ことをテキストマイニングと呼ぶことも多い。このとき、自然言語処理は、テキストマイニングを実現するための具体的技術を指すときに用いる。
テキストマイニングにおけるデータ処理では、非構造化データを取り扱う。一般的に、非構造化データの処理は、構造化データに比べ複雑である。例えば、アンケート調査における自由記載欄は、テキストマイニングの対象の典型的な例である。自由記載欄に記入された文字データは、予め決められた選択肢から選ぶわけではないため、記載内容が全く同じ意味の場合でも、アンケート記入者により表現は様々である。このようなデータをテキストマイニング技術により処理することで、分析可能なデータへ加工することが可能である。

単語の分割
テキストデータの処理上の特徴として記載言語の依存性が強い。英語では、「I love you.」のように単語間にスペースを挿入するため、スペースを基準にして文字列を単語の集合に分割することができる。ただし、単に単語に分割しただけでは、「I loved you.」の「loved」と「I love you.」の「love」を同一視できないため、辞書データや文字解析ロジックなどにより、「loved→love」と変形させる必要がある。
日本語では、単語間の明確な区切りが存在しないため、文字列から単語ごとに分ける処理は容易ではない。さらに、例えば「日本語」という3文字の文字列は、詳細に分割した「日本」「語」の2つの単語(形態素)に分けることも、「日本語」という1つの単語(複合語)に分けることも可能である。どちらの分割方法にするかは、テキストデータの使用目的に応じて決める。例えば、国名の「日本」と言語の「日本語」を区別したい場合には複合語を選択する。複合語の処理では、過去のデータに存在しない場合でも処理対象となることがある。例えば、「埼玉オリンピック」という複合語は、架空の新規用語であるため、過去のデータを検索するだけでは、「埼玉」と「オリンピック」を結合することはできない。このような複合語でも、特別なロジックを構築することで、「埼玉オリンピック」という1単語にすることも可能である。

頻度集計
テキストマイニングでは、「大量のテキストデータから課題解決のための有益な情報を引き出す」ために、形態素分析や複合語分析で単語ごとに切り分けた後に、単語ごとの出現頻度集計を行うことが多い。この際、単純に単語の出現頻度からでは、有益な情報を引き出せるとは限らない。例えば、業務における電子メールの文面でテキストマイニングすることを考える。メール文面には、挨拶の記載(例:「お世話になっております。」)の定型文は非常に多いと推測される。そのため、「世話」の単語が出現する頻度は非常に高いであろう。知りたいのは、「世話」のような定型文に出現する単語ではなく、定型文以外でよく使われる単語(例:「納期」)であろう。このように、「出現頻度が高く、かつ、一般的すぎる単語を除外する」ために、テキストマイニングでは、様々な手法を用いて処理を行っている。例えば、tf-idfという手法では、「多くの文書で出現する頻度の高い単語」に対して“頻度“(重み付き頻度)を小さく評価する処理を行う。例えば、「世話」の出現頻度は高いが、出現する電子メール数も多いため、tf-idfでいう”頻度”は小さい。

精度評価
テキストマイニングにおける分析の難しさの一つに、分析精度の評価方法があげられる。正解が与えられているロジスティク回帰などでは、予測値と正解とを比較することで、適合率などの評価基準により明確に数値化できる。そのため、分析精度の判断が容易である。一方、テキストマイニングにおける単語の出現頻度集計や要約文抽出結果などでは、分析精度の判断基準に、人間の感覚に依存する部分もあるため、評価自体に若干曖昧さが残る。
一方で、上記のことを言い換えると、テキストマイニングの分析結果を可視化することで、人にとってインパクトが強い結果をもたらす。例えば、電子メールのテキストマイニングを実施することで、日常的に感覚として気付いてはいるが言語化できていなかった重要な単語が抽出されることがある。このような新しい気づきを発見できることが、AIの強みの一つである。



■関連記事
【1】テキストマイニングの有用性
https://bodais.com/rd/knowledge/text-mining/
企業に蓄積されているデータのうち、8割以上がテキストデータであると言われている。近年、このデータが活用できているか、できていないかが業績に大きく影響するようになってきている。例えば、アンケートの自由回答やコールセンターのログ、Webサイト上のユーザ書き込み、営業日報などを解析することによって、顧客や市場のニーズを抽出したり、自社商品やサービスの評判を分析したり、業務上の問題点を把握したりすることができる。また、これらが時系列にどう変遷しているかを調べることも可能となっている。テキストマイニングは、大量のテキスト集合から自然言語処理の手法によって重要なテキスト群を抽出し、役に立つ知識や情報を獲得する分析手法であり、人が読むだけでは得られない、発見的な知識獲得が可能である。

【2】 テキストマイニングとは何を解析するの?
https://bodais-datascientist.blogspot.com/2017/01/blog-post_10.html
テキストマイニングはテキストの中から特徴ある単語や文節を見つけて分析・可視化する作業だが、データマイニングの手順CRISP-DMに従ってデータ理解・処理、目的に則した分析を行うことが重要となる点は、数値データのそれと本質的な部分で同じである:
(記事引用)「テキストマイニング解析はほかのデータ解析と大きく変わるものではありません。結局のところ、「CRISP-DMにおける“ビジネスの理解”」を行う事なくテキストマイニングをしても意味がないのは他の解析と同じです。



【3】テキストクレンジングの難しさ
https://bodais-datascientist.blogspot.com/2017/08/blog-post.html
テキストマイニングでは、データが言葉(表現や表記)の揺れにより表面上は異なって見えるため、類似した言葉でもコード化されたデータでは全く異なる扱いを受けてしまうことが問題となる。この問題を解消するために事前処理として表記統一などを行うが、例外処理が数多く存在し、実際に作業する時には想像以上の例外処理に直面することが多い: (記事引用)「公な報告書などテキストマイニングをするテキストの内容によってはクレンジングの仕様を細かく決める必要があります。過去の個別プロジェクトではこういったクレンジング仕様を決めるだけで数週間を要しました。」


【4】 SNSデータの活用と研究進展
https://bodais-datascientist.blogspot.com/2021/06/sns.html
近年ではSNS上の書き込みを収集・分析することで、社会現象の解釈や、個人属性の推計などに関して数多くの研究実績が発表されている:
個人の属性抽出に対して、(1)同一人物判定,(2)メンタルヘルス面の推定,(3)ユーザの識別,(4)人間関係の推定などに関する研究が行われている。また、社会現象の推計・解釈に関しては、(1)時空間感情推定・感情分析,(2)サイバー犯罪防止,(3)感染症の流行状況などに関する研究が行われている

【出所】津川翔: 「SNSに蓄積された情報の活用」, 通信ソサイエティマガジン, 春号,
No.52,2020.  https://www.jstage.jst.go.jp/article/bplus/13/4/13_282/_pdf/-char/ja

関連キーワード

関連事例


運営会社へのお問い合わせは、下記ボタンよりお問い合わせください。

運営会社へのお問い合わせはこちら 

bodais

bodais

DX総合支援サイト

運営会社