特許
J-GLOBAL ID:200903072986689954
情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム
発明者:
出願人/特許権者:
公報種別:公開公報
出願番号(国際出願番号):特願2002-042820
公開番号(公開出願番号):特開2003-242166
出願日: 2002年02月20日
公開日(公表日): 2003年08月29日
要約:
【要約】【課題】 情報抽出方法に係り、特にハイパードキュメントシステムから情報を抽出する情報抽出方法に関する。【解決手段】 情報抽出方法において、起点Nからリンクが張られた2次Nを示す2次Nパス名とリンク近傍テキスト(T)の組をテーブルとし出力するステップ(ST)11と、前記2次NのTを取得するST14と、前記Tを分解するST15と、前記起点Nから派生したリンク近傍Tと2次Nパス名から派生したT片群の類似度を計算出力するST16と、前記T片群から最適T片を選択するST17と、各2次Nにつき最適T片を選択するステップを呼出し、最適T片をデータベース登録するST12と、時刻と起点Nパス名と2次Nパス名とリンク近傍Tと最適T片をデータベース化するST13と、検索Nパス名が入力され、起点Nパス名と一致するデータを出力するST18とを備えた。
請求項(抜粋):
テキストとこのテキスト中に記されているリンクとよりなるノードを複数有し、前記リンクにはそのリンク先の2次ノードを指し示す2次ノードパス名が記されて前記各ノードの繋がりを示すように構成されたハイパーテキストから情報を抽出する情報抽出方法において、検索キーワードに対応するノードを指し示すノードパス名が入力されると、前記ノードのテキスト及びリンクを解析し、前記2次ノードパス名と前記テキスト中のリンクの近傍に記載されているテキスト部分を切り出したリンク近傍テキストとを組とする入力テーブルを出力するノード分析ステップと、前記2次ノードにアクセスし、前記2次ノードのテキストを取得する2次ノード取得ステップと、前記2次ノードのテキストを所定の大きさのテキスト片群に分割するテキスト分割ステップと、前記リンク近傍テキストに対する前記分割した各テキスト片それぞれの類似度を計算し、前記各テキスト片と前記類似度とを組とする類似度テーブルを出力する類似度計算ステップと、前記テキスト片群の中から最も類似している類似度のテキスト片を選択する最適テキスト片選択ステップと、前記入力テーブルを順次解析し、各々の前記2次ノードについて前記最適テキスト片選択ステップより選択される前記各2次ノードの最適テキスト片を、現在時刻、前記ノードパス名、前記2次ノードパス名、及び前記リンク近傍テキストと共に夫々抽出してデータベース化するデータベースステップとを備えたことを特徴とする情報抽出方法。
IPC (4件):
G06F 17/30 230
, G06F 17/30 170
, G06F 17/30 350
, G06F 12/00 547
FI (4件):
G06F 17/30 230 Z
, G06F 17/30 170 A
, G06F 17/30 350 C
, G06F 12/00 547 H
Fターム (7件):
5B075ND02
, 5B075NK44
, 5B075NS10
, 5B075PQ29
, 5B075PR06
, 5B082EA07
, 5B082GC04
引用特許:
前のページに戻る