Pat
J-GLOBAL ID:200903077011878138
類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム
Inventor:
,
,
,
,
Applicant, Patent owner:
Agent (1):
鈴江 武彦 (外6名)
Gazette classification:公開公報
Application number (International application number):2001054941
Publication number (International publication number):2002259426
Application date: Feb. 28, 2001
Publication date: Sep. 13, 2002
Summary:
【要約】【課題】複数の部分単語からなる特定の単語(複合語)を形態素解析辞書に登録した場合に上記各部分単語の中で重要な単語を併せて抽出する。【解決手段】形態素解析辞書14に複合語を登録する場合に、その複合語に特徴単語情報を付加しておく。この特徴単語情報は当該複合語を構成する各部分単語の中で検索上重要な単語を特徴単語として指定するものである。例えば「電気貯湯容器」であれば、「貯湯」が特徴単語であるという特徴単語情報を付加して形態素解析辞書に登録しておく。これにより、「電気貯湯容器」を含む文書から「電気貯湯容器」と「貯湯」の2単語を抽出することができ、複合語の単位でしか抽出できない問題や、複合語を構成する各部分単語を辞書登録し場合に重要度の低い単語までも抽出してしまうといった問題を解消して類似文書の検索精度を上げることができる。
Claim (excerpt):
検索キーとして与えられた文書と検索対象となる文書から夫々の文書に含まれる単語を抽出し、これらの単語の情報に基づいて両文書間の類似度を算出する類似文書検索装置において、複数の部分単語からなる特定の単語を含む各単語が登録され、上記特定の単語には上記各部分単語の中の少なくとも1つの単語が特徴単語であることを指定する特徴単語情報が付加された形態素解析辞書を備え、この形態素解析辞書を用いて上記検索キー文書及び上記検索対象文書から上記特徴単語情報で指定された特徴単語を含めて各単語を抽出することを特徴とする類似文書検索装置。
IPC (4):
G06F 17/30 330
, G06F 17/30 170
, G06F 17/30 210
, G06F 17/30 340
FI (4):
G06F 17/30 330 C
, G06F 17/30 170 A
, G06F 17/30 210 A
, G06F 17/30 340 A
F-Term (11):
5B075ND03
, 5B075NK02
, 5B075NK32
, 5B075NK43
, 5B075PP02
, 5B075PP12
, 5B075PP24
, 5B075PQ02
, 5B075PR06
, 5B075QM08
, 5B075UU40
Return to Previous Page