Pat
J-GLOBAL ID:200903028650551840

類似文書検索装置、類似文書検索方法及び類似文書検索用記憶媒体

Inventor:
Applicant, Patent owner:
Agent (1): 三澤 正義
Gazette classification:公開公報
Application number (International application number):1997056723
Publication number (International publication number):1998254894
Application date: Mar. 11, 1997
Publication date: Sep. 25, 1998
Summary:
【要約】【課題】 高精度の類似度計算処理を実現して文書データの自動分類の効率向上を図る。【解決手段】 比較元となる任意の文書及び外部記憶装置に記憶された任意の比較先の文書から各々単語を抽出し、抽出された各単語を、比較元の文書及び比較先の文書の中での出現位置情報とともに各々個別に単語情報格納バッファ4n、4pに格納し、比較元、比較先の双方の文書に対して共通の特定の単語が存在するか否かを判定し、特定の単語に関して比較元、比較先の双方の文書に対して特定の単語から一定の距離内にある当該単語に相当する単語を検索し、重み係数決定部4cにより、検索した特定の単語から一定の距離内にある当該単語に相当する単語に対して前記双方の文書における特定の単語からの距離に応じた重み係数を算出し、類似度算出部4bにより、重み係数決定部4cの算出結果を基にして、前記比較元の文書に対する比較先の文書の単語の出現位置に応じた類似度を算出するものである。
Claim (excerpt):
比較元となる任意の文書及び文書記憶手段に記憶された任意の比較先の文書から各々単語を抽出する抽出手段と、前記抽出手段により比較元の文書及び比較先の文書から抽出された各単語を、比較元の文書及び比較先の文書の中での出現位置情報とともに各々個別に格納する単語位置情報格納手段と、この単語位置情報格納手段を参照して比較元、比較先の双方の文書に対して共通の特定の単語が存在するか否かを判定する判定手段と、この判定手段により判定された特定の単語に関して単語位置情報格納手段を参照して比較元、比較先の双方の文書に対して特定の単語から一定の距離内にある当該単語に相当する単語を検索する検索手段と、この検索手段により検索した特定の単語から一定の距離内にある当該単語に相当する単語に対して比較元、比較先の双方の文書における特定の単語からの距離に応じた重み係数を算出する重み係数算出手段と、この重み係数算出手段の算出結果を基に、前記比較元の文書に対する比較先の文書の単語の出現位置に応じた類似度を算出する類似度算出手段と、を有することを特徴とする類似文書検索装置。
FI (5):
G06F 15/403 350 C ,  G06F 15/40 370 A ,  G06F 15/401 310 D ,  G06F 15/401 310 A ,  G06F 15/403 340 B

Return to Previous Page