特許
J-GLOBAL ID:200903090936151846

属性抽出装置

発明者:
出願人/特許権者:
代理人 (1件): 服部 毅巖
公報種別:公開公報
出願番号(国際出願番号):特願平11-064504
公開番号(公開出願番号):特開2000-259660
出願日: 1999年03月11日
公開日(公表日): 2000年09月22日
要約:
【要約】【課題】 構造化文書の多様な表現の差異を意識することなく、簡易な指定で、構造化文書内の必要な属性を抽出する。【解決手段】 属性抽出部1cは、構造化文書1aを読み込み、スキーマ定義部1bに定義されている文字列パターン及び属性名を有する属性スキーマの集合に従って読み込んだ構造化文書1aの照合を行い、適合した構造化文書1aの要素及びテキストを属性名として抽出し、文字列パターンが構造化文書1aの要素に適合した場合には、適合した要素の内容を属性値として抽出し、文字列パターンが構造化文書1aテキストに適合した場合には、適合した第1テキストの祖先であり同時にこの第1テキスト以外のテキストの祖先ともなる祖先要素を特定し、この祖先要素を祖先とする要素のうち第1テキストが直接属する第1要素以外の要素、及び祖先要素を祖先とするテキストのうち第1テキスト以外のテキストを属性値として抽出することにより属性リスト1dを生成する。
請求項(抜粋):
構造化文書から属性の集合を抽出する属性抽出装置において、前記構造化文書の属性を表す属性名と、前記属性名に対応する文字列パターンと、を有する属性スキーマを定義するスキーマ定義手段と、前記構造化文書を前記文字列パターンと照合することにより、前記構造化文書の属性名及び属性値を抽出する属性抽出手段と、を有することを特徴とする属性抽出装置。
IPC (3件):
G06F 17/30 ,  G06F 17/27 ,  G06F 17/21
FI (5件):
G06F 15/403 320 D ,  G06F 15/20 550 E ,  G06F 15/20 590 E ,  G06F 15/40 340 ,  G06F 15/40 370 A
Fターム (8件):
5B009QA07 ,  5B009QA09 ,  5B009VA02 ,  5B075ND03 ,  5B075ND35 ,  5B075NK35 ,  5B075NK46 ,  5B075PQ46

前のページに戻る