文書時系列構造図とは、人間が捌ききれないほど大量に存在するドキュメントを分類整理して、文書間の関係を時系列構造で俯瞰するための可視化技術です。
単に、構造図と呼ぶこともあります。テーマなどで文書数を絞り込んで構造化する場合には、1文書単位での構造可視化が可能ですが、大量にある場合は文書群に切り分けた後、文書群単位で構造化することになります。
文書群への切り分け(構造図の要素化)は、類似文書でまとめるクラスタ分析、キーワードやカテゴリーによる分類、タグ付けされた文書であればタグを活用した分類などが想定されます。
要素を単に時間順に並べるだけでなく、要素の類似関係を考慮して配置を決定します。
「特徴度解析」や「特徴文抽出」といった技術を併用することで、各要素の特徴を併記することにより、内容俯瞰を容易にすることができます。
例えば、企業内のドキュメントを人力で整理しようとした場合、大量のドキュメントからこの構造図を作成しようとすると、多くの時間やヒューマンエラーといったコストがかかりますが、この技術を用いると自動で構造図を作成しリソースを削減することができます。
また、知財管理技術(パテントマップ)の一つとして、特許文献の構造把握(テーマ別や発明者別の分析)にも活用されています。新聞やブログ記事、書籍データなどの構造把握にも用いることができます。
(1)文書ベクトル生成、(2)クラスタ分解、(3)特徴抽出、(4)時系配置の順に処理を行います。
コロナ感染に係る新聞・ブログ記事の出力例
作成中
お問い合わせは、下記ボタンよりお問い合わせください。
世界を革新する挑戦者に、成功を支援する会社
情報通信業