文書中に記載される引用情報を自動抽出し、データベースと照合してフルストレッチな文献情報と同定することを指します。

 

引用同定解析とは

文書中に記載される引用情報を自動抽出し、データベースと照合してフルストレッチな文献情報と同定することを指します。
引用情報は主に、題名、書誌名、著者名、著作年月などのうち一部分が記載されることが多く、当該分野の知識を持つ人(専門家)であれば、同定は容易に行うことができますが、背景知識を持たない一般人やコンピュータにとって同定は簡単ではありません。
引用同定解析は、データベースの名寄せや、文書分類のタグ付けに利用されています。

単純な場合には、タイトルや著者名のみの同定を行いますが、化合物名称の同定にも適用されています。
引用同定解析の手順を技術要素に分解すると、
(1)引用情報の抽出・分類、
(2)書誌構造の解析、
(3)マッチング
といった一連の技術が並ぶことになります。

引用情報の抽出・分類では、引用部分の抽出と、それがどういった媒体(論文、書籍、WEBサイト、企業技報など)の情報を参照しているのかを判定します。
引用情報は、本文中に記載されていたり、本文の後にリストとして付されていたり、表記方法にしても簡単な著作情報(筆者名とリスト番号のみ)が記されていたり、雑誌名が略称であるなど、引用形態は様々です。
媒体の種類に応じて、表記方法には決まった構造やパターンが見られるので、引用情報の分類が有用になります。分類ごとにパターンを解析したうえで、書誌情報に分解します(書誌構造の解析)。
最後に、得られた書誌情報を頼りに、データベースを照合して、マッチングを行うことになります。

自動解析のフロー

(1)引用情報の抽出・分類
・引用情報がどの媒体の情報なのか(論文、会議録、WEBサイト、企業技報など)を分類する。
・分類ごとの特徴的な検索語リストを作成し、引用情報の分類モデルを構築する。

(2)引用情報の構造解析
・引用情報の表記構造について代表的パターンや、デリミタ(区切り文字)や分割境界マーカーの使用パターンを特定する。
・引用文献リストを基本要素(著者名、タイトル、資料名、書誌情報)に分割する。

(3)引用情報のマッチング
・書籍の題名の省略、論文雑誌名の略記等により、完全一致しない問題への対処を行う。
・様々な略記表現、特殊表現、データ不備(読み取り機器のエラー、HTMLコードの混入)への対処を行う。

【例】雑誌名で使われてる単語の略記表現
  Japan ⇒ Jpn
  Optical Fiber Communication ⇒ OFC
【例】特殊なページ表記
   PD1、TuI5 など

概念図

関連情報

企業技報の引用解析(論文一覧 No.7)