特許
J-GLOBAL ID:201303086635810785
文書特徴抽出装置、文書特徴抽出方法、文書特徴抽出プログラム
発明者:
,
,
,
出願人/特許権者:
代理人 (4件):
小林 博通
, 鵜澤 英久
, 山口 幸二
, 橋本 剛
公報種別:公開公報
出願番号(国際出願番号):特願2011-249430
公開番号(公開出願番号):特開2013-105364
出願日: 2011年11月15日
公開日(公表日): 2013年05月30日
要約:
【課題】構造化文書の参照関係を利用して閲覧者の閲覧意図に相当する特徴を適切に抽出する。【解決手段】文書特徴抽出装置1の閲覧履歴記録部2は、閲覧者毎の閲覧履歴を閲覧履歴集合DB3に記録する。特徴抽出部4は、前記DB3の閲覧履歴に含まれるリンク元の構造化文書からリンクと該リンクの関連テキストとを抽出する。この抽出情報を含むリンク先の構造化文書おける代表的部分としての本文から単語を抽出する。特徴再計算部5は、抽出された単語に対して重み付けの計算を行う。出力部6は、抽出された単語を重み付けに応じた優先順位で出力する。【選択図】図1
請求項(抜粋):
参照関係を実現するリンクが表現された構造化文書の閲覧履歴に基づき各構造化文書の特徴を抽出する文書特徴抽出装置であって、
閲覧履歴に含まれたリンク元の構造化文書からリンクと該リンクの関連テキストとを抽出し、該抽出情報を含むリンク先の構造化文書における代表的部分を本文として抽出し、該抽出された本文から特徴を抽出する特徴抽出手段と、
特徴抽出手段が抽出した各構造化文書の特徴から全体的な特徴を集計し、各文書の特徴を重み付けて再計算する特徴再計算手段と、
を備えることを特徴とする文書特徴抽出装置。
IPC (1件):
FI (3件):
G06F17/30 220A
, G06F17/30 170A
, G06F17/30 419B
引用特許: