特許
J-GLOBAL ID:200903044053171578

関連語自動抽出装置及び方法並びに情報記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 柏木 明 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平10-137832
公開番号(公開出願番号):特開平11-328182
出願日: 1998年05月20日
公開日(公表日): 1999年11月30日
要約:
【要約】【課題】 不完全な現状レベルで最も高精度さを出せる単位で単語、特に複合語の抽出・認定を行うことができる関連語自動抽出装置等を提供する。【解決手段】 複合語の認定等は、用いる辞書等の影響を非常に強く受けるが、文節の認定は機械処理でもその揺らぎは少ない。よって、現状レベルでは、文節を自立語と付属語とに分けた場合の自立語部分全体を1単語(=最長単位)とするのが、最も安定した単位といえる。従って、単語認定部3による単語認定を最長単位生成部4により最長単位で行うことで、現状レベルで、極めて精度よく安定した単語の抽出が可能となる。もっとも、最長単位を用いると、頻度の分散を生ずるが、複合語内頻度/識別情報調整部7による処理で、長い関連語用単語に含まれる頻度情報等を短い関連語用単語に付加させることで、実際に最長単位で使用された単語であれば、短い単語でも長い単語でも漏れなく情報が得られ、頻度情報等の分散を回避できる。
請求項(抜粋):
電子化された文書群を格納する文書データベースと、文書中に出現する文節を自立語と付属語とに分けた場合の自立語部分全体を1単語とする最長単位生成部を有して、前記文書データベースに格納された文書群中で単語認定を行う単語認定手段と、この単語認定手段により認定された単語中から所定条件の関連語用単語を抽出する関連語用単語抽出手段と、この関連語用単語抽出手段により抽出された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に当該他の関連語用単語の出現文書識別情報、頻度情報等の情報を前記或る関連語用単語に付加する複合語内頻度/識別情報調整手段と、各文書毎に抽出され該当する場合には前記複合語内頻度/識別情報調整手段により付加された関連語用単語を所定の記憶装置に格納する関連語用単語格納手段と、入力されたキーワードと前記記憶装置に格納された前記関連語用単語との間の関連度を計算する関連度計算手段と、この関連度計算手段による関連度の計算結果を出力する結果出力手段と、を備える関連語自動抽出装置。

前のページに戻る