特徴度は、文書(テキスト)の特徴を効率よく把握するための指標です。
テキストの特徴は単語の出現頻度と大きく関わっています。
・ある主題についての文書集合を考えると、主題に関する単語は多くの文書で言及されている。
・1つの文書の中である主張を行う場合、主張を表す語彙の頻度に比べて、その主張を説明・補助するために用いられる周辺語彙よりも低頻度である。
選挙運動のように単語を連呼するのは、言外に主張が存在するのでテキスト自体に表出される特徴としては相応しくありません。
また全員の主張が同じである場合には、文書集合全体としては主題として捉える方が適切といえます。
この両方の性質をバランスよく考慮して、各文書の特徴をうまく把握するために用いられるのが特徴度です。
このように特徴度は文章群との対比において定義されるものなので、ある文章群の中で特徴度が高くても、別な主題の文章群の中では高くないことがあるのはそのためです。
抽出に際しては、形態素分析した単位で特徴度解析を行うか、複合語分析した単位で特徴度解析を行うか指定できます。
トレンドの把握を行いやすくすし、SEOやリスティング広告を行う際のキーワード選定、アンケート分析などに活用できます。
特徴度解析サービスのデモは作成中です。
お問い合わせは、下記ボタンよりお問い合わせください。
世界を革新する挑戦者に、成功を支援する会社
情報通信業