特許
J-GLOBAL ID:200903013939016872

類似語抽出方法、文書検索方法及びこれらに用いる装置

発明者:
出願人/特許権者:
代理人 (1件): 蔵合 正博
公報種別:公開公報
出願番号(国際出願番号):特願平11-216617
公開番号(公開出願番号):特開2001-043236
出願日: 1999年07月30日
公開日(公表日): 2001年02月16日
要約:
【要約】【課題】 任意の文字列から成る検索条件に対して、類似語や訳語を抽出して検索条件を拡張し、再現性の高い文書検索を実現する。【解決手段】 類似語抽出装置に、文書集合101から索引を作成する索引作成手段102と、任意の文字列で成る検索式に対し索引を検索して頻度情報を取得する文書検索手段108と、前記頻度情報から特徴ベクトルを作成する手段110と、文書集合中の全語に対する特徴ベクトルを算出して表として格納する特徴ベクトル表作成手段104と、特徴ベクトル間の類似度を算出する類似度算出手段112とを設けた。前記頻度情報から特徴ベクトルを動的に作成し、類似度算出手段によって特徴ベクトル表中のベクトルとの類似度を算出して、ベクトル間の類似度が高い語を類似語として抽出し、類似語を利用して質問拡張を行なうことにより、より再現性の高い文書検索を行える。
請求項(抜粋):
文書集合から索引を作成する段階と、任意の文字列から構成される検索式に対して、索引を検索して頻度情報を取得する段階と、検索の結果取得される頻度情報から特徴ベクトルを作成する段階と、文書集合中に含まれるすべての語に対する特徴ベクトルを算出して特徴ベクトル表を作成する段階と、頻度情報から作成した特徴ベクトルと特徴ベクトル表の中の特徴ベクトルとの間の類似度を算出する段階とを有し、入力された検索条件から検索を行い、得られた頻度情報から特徴ベクトルを動的に作成し、作成された特徴ベクトルと特徴ベクトル表中のベクトルとの類似度を算出し、類似度の高い特徴ベクトル表中の語を類似語として抽出することを特徴とする類似語抽出方法。
FI (4件):
G06F 15/403 320 D ,  G06F 15/40 370 A ,  G06F 15/403 340 B ,  G06F 15/403 350 C
Fターム (8件):
5B075ND03 ,  5B075NK02 ,  5B075NK32 ,  5B075PP12 ,  5B075PP25 ,  5B075PR04 ,  5B075PR06 ,  5B075QM08

前のページに戻る