特許
J-GLOBAL ID:200903010647397817

類義語検索装置、方法、プログラム及び記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 丸山 隆夫
公報種別:公開公報
出願番号(国際出願番号):特願2002-314914
公開番号(公開出願番号):特開2004-054882
出願日: 2002年10月29日
公開日(公表日): 2004年02月19日
要約:
【課題】文書群の検索語の類義語を求める場合に、低コストで、一般性のある類義語を獲得できる類義語検索装置、方法、プログラム及び記憶媒体を得る。【解決手段】1次検索部5は、対象語バッファ2の対象語を検索語として文書記憶部3を検索し、検索された文書に文書スコアを付与する。文書スコアは、検索語が多く現れるほど、文書長が短いほど、少数の文書に出現するほど大きい。文書スコアの高い上位R個をシード文書とし、このシード文書を単語に分解し、各単語を関連語候補としてそれぞれについて所定の演算により対象語との関連度を求め、関連度の高い上位T個を関連語とする。次に、2次検索部8は、関連語バッファ7に格納された関連語群を検索語群として再び文書記憶部3を1次検索と同様に検索してシード文書を求め、シード文書から関連語を抽出する。類義語選択部9は抽出された関連語の高い上位S個を類義語候補として選択する。【選択図】 図1
請求項(抜粋):
対象語を入力する入力手段と、 文書群を記憶する文書記憶手段と、 前記入力された対象語を検索語として前記文書記憶手段を検索し、検索語が出現する文書に第1の演算により文書スコアを付与し、文書スコアの高い順にランキングし、このランキングの上位所定数の文書をシード文書として取り出し、このシード文書を構成する単語を関連語候補として抽出し、抽出された関連語候補を検索語として前記シード文書を検索し、検索語が出現する文書について第2の演算により前記対象語と検索語との関連度を求め、前記関連語候補から前記関連度の高い順に上位所定数の検索語を関連語として抽出する1次検索手段と、 前記抽出された関連語を検索語として前記文書記憶手段を検索し、検索語が出現する文書について前記第1及び第2の演算により関連語を抽出する2次検索手段と、 前記2次検索手段で抽出された関連語から関連度の高い順に上位所定数の関連語を類義語候補として選択する類義語選択手段とを設けたことを特徴とする類義語検索装置。
IPC (1件):
G06F17/30
FI (3件):
G06F17/30 320D ,  G06F17/30 170A ,  G06F17/30 340B
Fターム (4件):
5B075ND03 ,  5B075NK35 ,  5B075PR04 ,  5B075UU06
引用特許:
出願人引用 (4件)
全件表示
審査官引用 (4件)
全件表示

前のページに戻る