特許
J-GLOBAL ID:200903007980106497

文書収集装置、文書収集方法、プログラムおよび記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 川久保 新一
公報種別:公開公報
出願番号(国際出願番号):特願2007-011181
公開番号(公開出願番号):特開2008-176685
出願日: 2007年01月22日
公開日(公表日): 2008年07月31日
要約:
【課題】ネットワーク上に存在する構造化された膨大な文書データから、検索キーワードを含む文書の本文全体を収集する場合、検索エンジンが採用する大規模な設備を構築せずに、検索キーワードを含む文書の本文を収集するようにする。【解決手段】ネットワーク上に存在する検索エンジンに、検索キーワードに基づいて検索させ、検索した文書一覧情報を取得し、取得した文書一覧情報を解析し、各文書にアクセスするリンク情報と、各文書の抜粋文とを取得し、リンク情報に基づいて、ネットワーク上からリンク先ページの文書データを取得し、取得した文書データの構造を解析し、文書データ中に含まれている文字情報のうちで、一部または全ての文字列を、1または複数のブロックとして取得し、取得したブロックのうちで、抜粋文中に含まれている文字または文字列をより多く含むブロックの文字列または抜粋文を本文であると判定する。【選択図】図1
請求項(抜粋):
ネットワーク上に存在する構造化された文書データから、特定の検索キーワードを含む文書の一部分である文字情報を収集する文書収集装置であって、 ネットワーク上に存在する検索エンジンに対して、上記検索キーワードに基づいて検索を実行させ、上記検索キーワードを含む文書一覧情報を取得する文書検索部と; 上記文書検索部が取得した文書一覧情報を解析し、各文書にアクセスするためのリンク情報と、各文書の概要を示す文字列である抜粋文とを取得する検索結果解析部と; 上記リンク情報に基づいて、上記ネットワーク上からリンク先ページの文書データを取得するページ取得部と; 上記ページ取得部が取得した文書データの構造を解析し、上記文書データ中に含まれている文字情報のうちで、一部または全ての文字列を、1または複数のブロックとして取得するブロック分割部と; 上記ブロック分割部が取得した1以上のブロックのうちで、上記抜粋文中に含まれている文字または文字列をより多く含むブロックを選択するブロック選択部と; 上記ブロック選択部が選択した文字列と、上記抜粋文とを比較し、いずれか一方を本文であると判定する本文判定部と; を有することを特徴とする文書収集装置。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 220Z ,  G06F17/30 140 ,  G06F17/30 170A
Fターム (4件):
5B075NS01 ,  5B075NS10 ,  5B075PQ12 ,  5B075UU24
引用特許:
出願人引用 (2件) 審査官引用 (2件)

前のページに戻る