Pat
J-GLOBAL ID:200903086560713409

構造化文書曖昧検索装置及びそのプログラム

Inventor:
Applicant, Patent owner:
Agent (5): 曾我 道照 ,  曾我 道治 ,  古川 秀利 ,  鈴木 憲七 ,  梶並 順
Gazette classification:公開公報
Application number (International application number):2004142695
Publication number (International publication number):2005326970
Application date: May. 12, 2004
Publication date: Nov. 24, 2005
Summary:
【課題】従来は、文書間で、余分なノードや不足ノードがある場合やノードの並び方が異なる場合を検出して文書構造間の相違距離を計算し、類似度計算はタグ名や属性名を基に行い、タグの値の内容解析までは行わないため、タグ付けの細かさのレベルが著しく異なる文書同士の類似性比較はできなかった。【解決手段】入力構造化文書から、構造化文書の部分を照合対象抽出手段で抽出し、抽出された構造化文書からキーワード抽出手段でキーワードを抽出し、そのキーワードにより、キーワード検索手段でデータベースを検索し、検索された構造化文書を、キーワードと照合し、類似した文書断片を類似断片候補抽出手段で抽出し、その文書断片を、形態素解析手段が形態素解析し、解析結果と、照合対象抽出手段が出力した構造化文書の断片の類似度を計算し、類似度の高い文書を検索結果として断片類似度計算手段が出力する。【選択図】図1
Claim (excerpt):
データベースから文書を検索するため入力された構造化文書から、検索対象となる構造化文書の部分を抽出する照合対象抽出手段と、 上記照合対象抽出手段によって抽出された構造化文書からキーワードを抽出するキーワード抽出手段と、 上記キーワード抽出手段で抽出したキーワードを検索キーにして、検索対象構造化文書が蓄積されたデータベースを一次検索するキーワード検索手段と、 上記キーワード検索手段によって検索された一次検索結果の構造化文書を、上記キーワード抽出手段で抽出したキーワードと照合し、類似した文書断片を抽出する類似断片候補抽出手段と、 上記類似断片候補抽出手段によって抽出された構造化文書断片のテキストを、形態素解析する形態素解析手段と、 上記形態素解析手段が出力した解析結果と、上記照合対象抽出手段が出力した構造化文書の断片の類似度を計算して、類似度の高い文書を検索結果として出力する断片類似度計算手段 から構成されることを特徴とする構造化文書曖昧検索装置。
IPC (1):
G06F17/30
FI (4):
G06F17/30 350C ,  G06F17/30 140 ,  G06F17/30 170A ,  G06F17/30 210A
F-Term (5):
5B075ND03 ,  5B075NK02 ,  5B075NK31 ,  5B075PR06 ,  5B075QM08
Patent cited by the Patent:
Cited by applicant (1)
  • 文書種別判定方法
    Gazette classification:公開公報   Application number:特願2001-359094   Applicant:キヤノン株式会社

Return to Previous Page