文章の構成単位は大きく、単語、文(単語の集合)、文書(文の集合)のような要素で捉えることができます。

 

主文章(メインテキスト)とは

文章の構成単位は大きく、単語、文(単語の集合)、文書(文の集合)のような要素で捉えることができます。
文章における単語の特徴を捉えるのに特徴度、文書に書かれた文の特徴を捉えるのに特徴文の概念が役立つように、主文章とは文章を比較単位としてどの文章が代表的あるいは特徴的なのかを表す文章を言います。 主題語を多く含む文章を抽出することで記述分野を象徴(代表)するような文章を抽出したり、特徴語を多く含む文章を抽出することでその文書の主張(要点)に関わる文章を抽出します。 主文章抽出はこれら主題や特徴のバランスを考慮して、特徴や要点の把握につながる文章を抽出する技術と言えます。

主文章抽出エンジン

「特徴文抽出」の拡張機能と捉えることができますが、複数筆者による文章の比較分析として利用目的を拡大することが可能です。
例えば、1つのtwitterへの投稿文には、複数の句点「。」が含まれる可能性があります。これを「特徴文抽出エンジン」で解析すると、句点「。」毎に分割されてしまいますが、「主文章抽出エンジン」を使うことで、投稿単位で重要度を導出してスコア付けをすることが可能になります。 蓄積されたFAQの評価などにも、効果的に活用することができます。

概要図

概念図

特徴文抽出エンジンのデモは作成中です。

商品/デモ

主文章抽出エンジンのデモは作成中です。