特許
J-GLOBAL ID:200903067964980147

構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願平11-281937
公開番号(公開出願番号):特開2001-101184
出願日: 1999年10月01日
公開日(公表日): 2001年04月13日
要約:
【要約】 (修正有)【課題】 非構造化文書を構造化する際の属性判定基準をテーマによって可変とし、検索時に検索者が選択したテーマ別の検索を可能とする。【解決手段】 各テーマ毎に基本的な属性セットを設定しておき、半構造化文書が入力されると、該文書の文字列に対して予め登録されているパターンとのパターンマッチング、及び単語と複数の属性名が対応して記述さている属性辞書との辞書マッチングを行って、該半構造化文書の文字列に対する属性候補を抽出し、テーマ毎の属性を参照して、半構造化文書中に出現する可能性のある属性を取得すると共に、属性同士が共起関係にあるか、排他関係にあるかを示す属性関係ルールを参照して優先度を付与し、属性候補のうち、優先度が大きいものを属性として採用し、構造化文書として出力する。
請求項(抜粋):
テーマ別文書検索を目的として、テーマに基づいた非構造化文書の構造化を行うための構造化文書生成方法において、予め検索の視点であるテーマを設定すると共に、各テーマ毎に基本的な属性セットを設定しておき、半構造化文書が入力されると、該文書の文字列に対して予め登録されているパターンとのパターンマッチング、及び単語と複数の属性名が対応して記述さている属性辞書との辞書マッチングを行って、該半構造化文書の文字列に対する属性候補を抽出し、抽出された前記属性候補について、テーマ毎の属性を参照して、前記半構造化文書中に出現する可能性のある属性を取得すると共に、該半構造化文書中に出現する可能性のある属性同士が共起関係にあるか、排他関係にあるかを示す属性関係ルールを参照して共起関係または、排他関係に応じて優先度を付与し、前記属性候補のうち、前記優先度が大きいものを属性として採用し、採用された属性に基づいて入力された前記半構造化文書の文字列に対してタグ付けを行い、構造化文書として出力することを特徴とする構造化文書生成方法。
IPC (2件):
G06F 17/27 ,  G06F 17/30
FI (4件):
G06F 15/20 550 E ,  G06F 15/40 340 ,  G06F 15/40 370 A ,  G06F 15/401 320 A
Fターム (14件):
5B009QA00 ,  5B075ND03 ,  5B075NK02 ,  5B075NK32 ,  5B075NK42 ,  5B075NK46 ,  5B075NR03 ,  5B075NR12 ,  5B075PP02 ,  5B075PP12 ,  5B075PP25 ,  5B075PR08 ,  5B075QM10 ,  5B075UU06

前のページに戻る