特徴度は、文書(テキスト)の特徴を効率よく把握するための指標です。テキストの特徴は単語の出現頻度と大きく関わっています。

 

特徴度とは

特徴度は、文書(テキスト)の特徴を効率よく把握するための指標です。
テキストの特徴は単語の出現頻度と大きく関わっています。

・ある主題についての文書集合を考えると、主題に関する単語は多くの文書で言及されている。
・1つの文書の中である主張を行う場合、主張を表す語彙の頻度に比べて、その主張を説明・補助するために用いられる周辺語彙よりも低頻度である。


選挙運動のように単語を連呼するのは、言外に主張が存在するのでテキスト自体に表出される特徴としては相応しくありません。 また全員の主張が同じである場合には、文書集合全体としては主題として捉える方が適切といえます。
この両方の性質をバランスよく考慮して、各文書の特徴をうまく把握するために用いられるのが特徴度です。
このように特徴度は文章群との対比において定義されるものなので、ある文章群の中で特徴度が高くても、別な主題の文章群の中では高くないことがあるのはそのためです。

抽出に際しては、形態素分析した単位で特徴度解析を行うか、複合語分析した単位で特徴度解析を行うか指定できます。
トレンドの把握を行いやすくすし、SEOやリスティング広告を行う際のキーワード選定、アンケート分析などに活用できます。

特徴度解析エンジン

■ 特徴度について
 特徴度は、話題の中でテーマを読むための指標で、平均頻度(単語の1回答あたりの出現頻度)が小さめで、人数が多いものを優先する指標です。

【例】5人の発言の解析例
1人だけが5回触れる ⇒ 平均頻度は 5 と高いが、集合の特徴として不適切
5人が1回ずつ触れる ⇒ 平均頻度は 1 と小さいが、集合の特徴として適切

概念図

商品/デモ

特徴度解析サービスのデモは作成中です。