一つの文書は文の集合体で構成されており、それぞれの文には、文書の主張を伝える上で重要な役割をもつものもあれば、本題とは関連性の薄い文もあります。

 

特徴文(特徴センテンス)とは

一つの文書は文の集合体で構成されており、それぞれの文には、文書の主張を伝える上で重要な役割をもつものもあれば、本題とは関連性の薄い文もあります。 テキストの内容を俯瞰的に捉える際には、単語レベルの解析では主題語と特徴語の抽出が大いに役立つのと同様に、文の単位でも主題に関わる文と、主題の中でも主張に関わる特徴的な文とに分類することで要点把握を簡易に行うことができます。 主題語を多く含む文を抽出することでその記述分野を象徴(代表)するような文を抽出したり、特徴語を多く含む文を抽出することで、その文書の主張(要点)に関わる特徴的な文(特徴文)を抽出します。 特徴文抽出はこれら主題や特徴のバランスを考慮して、文書の要点把握につながる文を抽出する技術と言えます。

特徴文抽出エンジン

句点「。」で区切られた複数の文章をひとかたまりとして「主文抽出解析エンジン」に投入していただくと、句点「。」毎に文章を分割し、分割された文毎に「ID」を付与します。その上で、各文が全体で伝えたい内容にどの程度関係性が強いかを「スコア」を付けて評価します。 スコアで降順化することで、大量の文章をすべて読み解かずに、スコア上位の文章だけで全体を理解することが可能になります。 判例集、事例集、特許、FAQなど、長文章からその概要を素早く読み解くことができます。

概要図

デモ

特徴文抽出エンジンのデモは作成中です。