特許
J-GLOBAL ID:200903056382365616
情報抽出装置および情報抽出方法
発明者:
,
出願人/特許権者:
代理人 (1件):
鷲田 公一
公報種別:公開公報
出願番号(国際出願番号):特願2005-230686
公開番号(公開出願番号):特開2007-047974
出願日: 2005年08月09日
公開日(公表日): 2007年02月22日
要約:
【課題】 不特定のウェブサイトのページから、ある検索語に関する特定の情報をブロック単位で抽出すること。 【解決手段】 本情報抽出装置は、HTMLなどで記述された半構造化情報における検索語と検索語に関する特定情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、ウェブページの集合から検索語に関する特定情報の候補をブロック単位で抽出し、抽出された特定情報の候補の中から情報分類技術を用いて特定情報を選択する。 【選択図】 図1
請求項(抜粋):
指示された検索語に関する情報をウェブページの集合から抽出する情報抽出装置であって、
前記ウェブページの半構造化情報における前記検索語と前記検索語に関する情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、前記ウェブページの集合から前記検索語に関する情報候補をブロック単位で抽出する情報候補抽出手段と、
前記情報候補抽出手段によって抽出されたブロック単位の前記情報候補を情報分類技術によって評価し、前記ブロック単位の情報候補を抽出するべき情報と抽出するべき情報以外にそれぞれ分類する情報分類手段と、
を有する情報抽出装置。
IPC (1件):
FI (3件):
G06F17/30 220Z
, G06F17/30 170A
, G06F17/30 140
Fターム (5件):
5B075ND03
, 5B075NK10
, 5B075NR12
, 5B075QM06
, 5B075QM08
引用特許:
前のページに戻る