特許
J-GLOBAL ID:200903016941468518

類似文書検索装置、類似文書検索方法及び記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 鈴江 武彦 (外6名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-363455
公開番号(公開出願番号):特開2002-163291
出願日: 2000年11月29日
公開日(公表日): 2002年06月07日
要約:
【要約】【課題】複数の部分単語から構成される単語を辞書に登録した場合でも、その単語の部分単語による複合語の抽出を可能とし、また、意味のない単語生成を抑制する。【解決手段】形態素解析辞書に登録された単語にどのような部分単語から構成されているのかを示す単語構成情報および上記部分単語からの特定の単語の生成を抑制する抑制情報を付与しておく。この形態素解析辞書を参照して検索キー文書および検索対象文書から単語を抽出した際に(D11,D12)、その部分単語を単語構成情報に基づいて取得し、上記部分単語から所定数以下の単語の組み合わせからなる複合語を生成する(D13〜15)。また、この複合語の中から上記抑制情報に基づいて上記特定の単語を除外する(D16)。
請求項(抜粋):
検索キーとして与えられた文書に類似する文書を複数の検索対象文書の中から検索する類似文書検索装置において、複数の部分単語から構成された単語がその単語の構成を示す単語構成情報と共に登録された形態素解析辞書と、この形態素解析辞書を参照して上記検索キー文書および上記検索対象文書から単語を抽出する単語抽出手段と、この単語抽出手段によって抽出された単語の部分単語を上記単語構成情報に基づいて取得する部分単語取得手段と、この部分単語取得手段によって得られた部分単語から所定数以下の単語の組み合わせからなる複合語を生成する複合語生成手段と、この複合語生成手段によって生成された複合語を上記単語抽出手段による単語抽出結果に加え、これらの単語の情報に基づいて上記検索キー文書と上記検索対象文書情報との類似度を算出する類似度算出手段と、この類似度算出手段によって算出された類似度に基づいて上記複数の検索対象文書の中から上記検索キー文書と類似する文書を検索する文書検索手段とを具備したことを特徴とする類似文書検索装置。
IPC (4件):
G06F 17/30 350 ,  G06F 17/30 170 ,  G06F 17/30 210 ,  G06F 17/30 330
FI (4件):
G06F 17/30 350 C ,  G06F 17/30 170 A ,  G06F 17/30 210 A ,  G06F 17/30 330 C
Fターム (7件):
5B075ND03 ,  5B075NK31 ,  5B075PP02 ,  5B075PP03 ,  5B075PQ02 ,  5B075PR06 ,  5B075QM08

前のページに戻る