特許
J-GLOBAL ID:200903011908633773

文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置

発明者:
出願人/特許権者:
代理人 (1件): 松井 伸一
公報種別:公開公報
出願番号(国際出願番号):特願平5-087774
公開番号(公開出願番号):特開平6-282587
出願日: 1993年03月24日
公開日(公表日): 1994年10月07日
要約:
【要約】【目的】 文章の意味内容や表記上の相違を考慮してより精度の高い自動分類を行うとともに、その分類を行うための辞書を自動的に形成すること【構成】 文書中のキーワード対の同時出現頻度値を用いて文書間の親近性を定量化(辞書化)し、親近性が高いほど共通の文書であると認定できることを利用し、分野既知の文書に基づいて各分野ごとの辞書を作成し、新規の文書と最も親近性の高い辞書の分野を、その文書の分野と決定する。この時、キーワードを抽出するに際し、その種別(主語,目的語,その他等)も同時に判別し、種別まで一致するキーワードを同一としてとらえ(意味内容を考慮した辞書作成)、しかもキーワード対の出現数を係数するに際し、文字列一致を同一のキーワードとしてとらえ(表記上の相違に影響されない辞書を作成)、各処理を行う。
請求項(抜粋):
分野既知の複数の文書をそれぞれ構成する語句の中から主語,目的語などの種類分けを行いつつキーワードを抽出し、抽出されたキーワードの出現文書数並びに任意の2つのキーワードが同時に出現するキーワード対の出現文書数を求め、前記キーワードの出現文書数と前記キーワード対の出現文書数から前記キーワードを構成する2つのキーワード間の距離を算出し、そのキーワード間の距離から各キーワード対のその分野の依存度を算出し、少なくともその分野におけるキーワード対と依存度の関係を辞書に格納するようにした文書の自動分類用の辞書作成方法。
IPC (3件):
G06F 15/401 ,  G06F 12/00 520 ,  G06F 15/40 500

前のページに戻る