特許
J-GLOBAL ID:200903087478350388

文書要約システム及び文書要約方法

発明者:
出願人/特許権者:
代理人 (1件): 松浦 兼行
公報種別:公開公報
出願番号(国際出願番号):特願2000-358808
公開番号(公開出願番号):特開2002-163276
出願日: 2000年11月27日
公開日(公表日): 2002年06月07日
要約:
【要約】【課題】 従来は、文章の一部分から作成した要約は、必ずしも文書内容と文書が置かれているサイトの情報を客観的に表しておらず、また、長い要約を作成してしまうことがあり更に複数の文書に同じ要約を与える可能性がある。【解決手段】 アンカー文字列抽出手段11は、文書集合記憶部21に格納された対象文書の集合からリンク先文書のURLとアンカー文字列を抽出する。文書タイプ判別手段12は、リンク元文書の文書タイプを判別する。リンク関係判別手段13は、リンク元文書と要約対象文書とのリンク関係を判別する。要約文字列決定手段14は、アンカー文字列の出現頻度、リンク元文書の文書タイプ、及びリンク元文書と要約対象文書とのリンク関係を基に、アンカー文字列の要約としての適切さを示す得点を予め記憶している得点情報記憶部22を参照して、各アンカー文字列に得点を付与し、合計得点が最も高いアンカー文字列を要約とする。
請求項(抜粋):
HTML文書の集合を検索する際に、検索結果として表示する文書要約を作成する文書要約システムであって、要約対象となるHTML文書の集合を予め記憶している文書集合記憶部と、アンカー文字列の出現頻度による要約としての適切さの得点と、リンク元文書の文書タイプによる要約としての適切さの得点を予め記憶している得点情報記憶部と、前記文書集合記憶部のHTML文書の集合からリンク元文書のアンカー文字列を抽出するアンカー文字列抽出手段と、前記アンカー文字列抽出手段により抽出されたリンク元文書が、リンク集であるかどうかを前記文書集合記憶部のHTML文書の集合から判別する文書タイプ判別手段と、前記アンカー文字列抽出手段により抽出されたリンク元文書のアンカー文字列毎に、そのアンカー文字列の出現頻度と、前記文書タイプ判別手段により判別された判別結果に基づき、前記得点情報記憶部に記憶されている得点情報を参照して得点を付与し、合計得点の最も高いアンカー文字列を要約として決定する要約文字列決定手段とを有することを特徴とする文書要約システム。
IPC (6件):
G06F 17/30 220 ,  G06F 17/30 170 ,  G06F 17/30 340 ,  G06F 17/30 419 ,  G06F 12/00 546 ,  G06F 12/00 547
FI (6件):
G06F 17/30 220 A ,  G06F 17/30 170 A ,  G06F 17/30 340 B ,  G06F 17/30 419 B ,  G06F 12/00 546 B ,  G06F 12/00 547 H
Fターム (9件):
5B075ND03 ,  5B075ND36 ,  5B075NS01 ,  5B075PQ02 ,  5B075PR04 ,  5B082AA01 ,  5B082BA09 ,  5B082EA04 ,  5B082GC04
引用特許:
審査官引用 (1件)
引用文献:
前のページに戻る