ナレッジ一覧

データ解析に関連するナレッジをご紹介します。

ナレッジ
 

形態素解析と複合語解析

テキストマイニングでは、日本語をコンピュータが扱える情報に変換するため、「形態素解析」と呼ばれる技術が使われます。
形態素解析とは、自然言語で書かれた文を形態素(言語で意味を持つ最小単位)の列に分割し、品詞を見分ける作業のことです。一般的には参照する情報源として対象言語の文法の知識(ここでは文法のルールの集まり)と辞書(品詞等の情報付きの単語リスト)を用いることになります。これにより、単語の単位で頻度を集計し、文章の特徴を把握することができるようになります。

アイズファクトリー

特徴度解析

特徴度は、文書(テキスト)の特徴を効率よく把握するための指標です。テキストの特徴は単語の出現頻度と大きく関わっています。

アイズファクトリー

特徴文(特徴センテンス)抽出

一つの文書は文の集合体で構成されており、それぞれの文には、文書の主張を伝える上で重要な役割をもつものもあれば、本題とは関連性の薄い文もあります。
テキストの内容を俯瞰的に捉える際には、単語レベルの解析では主題語と特徴語の抽出が大いに役立つのと同様に、文の単位でも主題に関わる文と、主題の中でも主張に関わる特徴的な文とに分類することで要点把握を簡易に行うことができます。
主題語を多く含む文を抽出することでその記述分野を象徴(代表)するような文を抽出したり、特徴語を多く含む文を抽出することで、その文書の主張(要点)に関わる特徴的な文(特徴文)を抽出します。
特徴文抽出はこれら主題や特徴のバランスを考慮して、文書の要点把握につながる文を抽出する技術と言えます。

アイズファクトリー

主文章(メインテキスト)抽出

文章の構成単位は大きく、単語、文(単語の集合)、文書(文の集合)のような要素で捉えることができます。
文章における単語の特徴を捉えるのに特徴度、文書に書かれた文の特徴を捉えるのに特徴文の概念が役立つように、主文章とは文章を比較単位としてどの文章が代表的あるいは特徴的なのかを表す文章を言います。
主題語を多く含む文章を抽出することで記述分野を象徴(代表)するような文章を抽出したり、特徴語を多く含む文章を抽出することでその文書の主張(要点)に関わる文章を抽出します。
主文章抽出はこれら主題や特徴のバランスを考慮して、特徴や要点の把握につながる文章を抽出する技術と言えます。

アイズファクトリー

ポジネガ分析

ポジネガ分析とは、与えられたテキストにどのような感情特性があるのか(ポジティブな発言が多いのか、ネガティブな発言が多いのかその度合い)を分析することを言います。最も簡単な方法では、形態素解析によって単語に分割した後、単語の感情極性値(感情極性分類)に従ってスコアを算出し、ポジネガ度合いを算出します。感情極性とは、その単語が良い印象を持つか、悪い印象を持つかを数値で表現したものです。「美しい」「奇麗な」「素敵な」「嬉しい」などはポジティブの極性を、「悪い」「醜い」「汚い」「悲しい」などはネガティブな極性を持ちます。
ただ、この方法では必ずしも正しいポジネガ判定を行うことができません。
例えば、ノートPCの厚みが「薄い」のはポジティブと考えられますが、ステーキの厚みが「薄い」は、ネガティブであると考えられます。また、「ない」のような否定語を伴う場合に極性が逆転することを考慮しなければなりません。
これらの場合には、共起する語の頻度を見るコロケーション分析を併用することになります。

アイズファクトリー

文章可視化

文章可視化とは、テキストマイニングは大量の文章から有益な情報を抽出するための技術で、その解析手法は様々ですが、大別するとスコアリング系のものとポジショニング系のものに分類することができます。
特徴語、特徴文、ポジネガ分析などは単語のもつスコア情報を表現のベースとするスコアリング系の技法であり、複数の単語の配置から視覚的に概要把握を行うものがポジショニング系の技法です。
ポジショニング系の技法はテキスト可視化とも呼ばれ、単語の分析では共起ネットワーク(Key Graph、KH Coderなど)や、出現頻度に応じて色や大きさを変えて配置する Word Cloud などがあります。

アイズファクトリー

名寄せ

名寄せとは、企業が営業活動を行ったり、システムの改善を行ったりすると、システム上に重複したデータが生まれます。「名寄せ」とは、データの重複をなくし、データを正確に保持するための技術です。
「顧客データが大量にあって手がつけられない」「顧客データの重複をなくしたい」「M&Aをしたので、データの統合がしたい」などの悩みを解決することができます。
名寄せを行うことで、正確な顧客データ分析、データ利用の効率化、リスク管理のためのデータクレンジング処理等が可能です。
一般的には、辞書を用いた「完全一致」のマッチング結果で重複を判定します。 しかし、辞書を使った「完全一致方式」の名寄せでは、結果の精度に限界が生じます。例えば、入力ミスの多いデータでは、名寄せは上手く機能しません。また、辞書に依存するため、特殊なデータ項目には対応することが難しくなります。

アイズファクトリー

グラフコメンテーター

グラフコメンテーターとは、入力された「項目名」と「値」からできるグラフに対して、あたかも分析者がコメントをしたような文章を、自動で作成する技術です。
例えば、アクセス解析やアンケート解析等のグラフに、コメント付与を自動で行うことができます。
「グラフはあるけれど、コメントがなくてわかりづらい。」
「コメントを手作業で打っていて時間がとてもかかってしまう。」
といった悩みを、グラフコメンテーターが解消してくれます。

アイズファクトリー

弊社サービスに関するお問い合わせ・ご相談についてはお気軽にお問い合わせください。

お問い合わせはこちら 

03-5259-9004
受付時間 月~金 10:00~18:00 ※土日祝日、年末年始は除きます