Pat
J-GLOBAL ID:200903061783029132

類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体

Inventor:
Applicant, Patent owner:
Agent (1): 伊東 忠彦
Gazette classification:公開公報
Application number (International application number):1998297321
Publication number (International publication number):2000123041
Application date: Oct. 19, 1998
Publication date: Apr. 28, 2000
Summary:
【要約】【課題】 複数の主題や副題を持つ文書要素間の類似度を精度良く判定し、文書要素の持つ特徴を利用した類似度の判定を可能とし、形態素解析の不完全性を解決して文書要素間の類似度を精度良く判定することが可能な類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体を提供する。【解決手段】 本発明は、単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出し、抽出されたそれぞれの単語に重要度を付与し、抽出されたそれぞれの任意の2単語間に関連度を付与し、単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとしたグラフによって、それぞれの文書要素の主題を表現し、主題を表現するグラフ間の一致の度合いに基づき、文書要素間の類似度を判定する。
Claim (excerpt):
文書要素間の類似度を適切に判定するための類似度判定方法において、単語列または、単語列のブール演算子結合または、文または、文書または、文書集合で構成される文書要素から、該文書要素内で使用されている単語を抽出し、抽出されたそれぞれの単語に重要度を付与し、抽出されたそれぞれの任意の2単語間に関連度を付与し、前記単語の重要度をノードの重みとし、該単語間の関連度をリンクの重みとしたグラフによって、それぞれの文書要素の主題を表現し、前記主題を表現するグラフ間の一致の度合に基づき、前記文書要素間の類似度を判定することを特徴とする類似度判定方法。
FI (4):
G06F 15/401 310 D ,  G06F 15/40 370 A ,  G06F 15/401 320 C ,  G06F 15/403 350 C
F-Term (9):
5B075ND03 ,  5B075ND36 ,  5B075NK04 ,  5B075NK32 ,  5B075PQ02 ,  5B075PQ13 ,  5B075PQ40 ,  5B075PR06 ,  5B075UU06
Patent cited by the Patent:
Cited by applicant (1)
  • 情報検索方法
    Gazette classification:公開公報   Application number:特願平6-273337   Applicant:日本電信電話株式会社
Cited by examiner (1)
  • 情報検索方法
    Gazette classification:公開公報   Application number:特願平6-273337   Applicant:日本電信電話株式会社

Return to Previous Page