横軸に主題性、縦軸に特徴性を指標化して、文書の単語を2次元配置した平面図で、主題(テーマ)や話題(トピック)と対比して、文書の特徴(独創概念)を読み取るマップです。

 

横軸に主題性、縦軸に特徴性を指標化して、文書の単語を2次元配置した平面図で、主題(テーマ)や話題(トピック)と対比して、文書の特徴(独創概念)を読み取るマップです。

特徴概念平面図とは

横軸に主題性、縦軸に特徴性を指標化して、文書の単語を2次元配置した平面図で、主題(テーマ)や話題(トピック)と対比して、文書の特徴(独創概念)を読み取るマップです。縦横の組合せ領域から、平面図は4つの概念領域に分類されます。 縦軸の特徴性は、特徴語解析によって単語の特徴度を指標化した値を表示するものに対し、横軸の主題性は、主題(テーマ)に関係する度合いを表現します。背景となるテキスト集合において全般的な主題を表す語彙(主題語)は主題性が高く、文書形式上の必須用語や、テーマの中でも一般的な語彙は基本語彙を構成し、主題性は低く扱われます。

平面図分析のフロー

各軸の値の高低に応じて、以下に説明する手順で4つの概念領域に分割することができます。
特徴度の小さい領域は、全般的に文書の背景主題(テーマ)がどういう分野・領域なのかを表す領域であり、主題性の強弱に応じて2つの領域に分けることができます。
・特徴度が小さく、主題性の高い領域 ⇒ 主題(テーマ)語領域
・特徴度が小さく、主題性の低い領域 ⇒ 基本語彙領域

特徴度の高い領域は、文書の話題(趣旨)がどういう点にあるのかを表す領域であり。主題性の強弱に応じて2つの領域に展開されます。
・特徴度が高く、主題性の高い領域 ⇒ 話題(トピック)語領域
・特徴度が高く、主題性の低い領域 ⇒ 独創概念領域
独創概念領域は、一般的には基本語彙でありながらも、対象とする文書が注目している単語が分布することになります。

概念図

作例は、特許文献を対象に、シャンプー(毛髪洗浄剤)に関する文献を解析したもの。技術文献なので話題語領域には技術用語(専門語)が出現する傾向にある。
・主題語領域には、技術テーマを表す「毛髪」「洗浄剤」が現れている。
・基本語彙の領域には、特許文献で多用される特有の基本用語が出現している。また、この分野に一般的な用語「化合物」「水」「重合」等が出現している。 技術的には興味の対象外なので不要語として扱うことができる。
・話題語領域には、主題(技術テーマ)の中でも更に話題が絞られたものが出現し、特定の物質名や、独創概念の静電気と関連して「フライアウェイ」など、技術に関連した用語が現れている。
・独創概念領域には、容器の特徴と静電気に注目して、「軽量」「内壁」「摩擦」「ブラシ」「櫛」などが現れている。