特許
J-GLOBAL ID:200903068677901704
文書分類方法及び装置及び文書分類プログラムを格納した記録媒体
発明者:
,
出願人/特許権者:
代理人 (1件):
小笠原 吉義 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-082089
公開番号(公開出願番号):特開2001-265788
出願日: 2000年03月23日
公開日(公表日): 2001年09月28日
要約:
【要約】【課題】 本発明は、数量化分析の手法に基づいて、単語集合の中の不要語を特定した上、文書間の的確な類似度を算出することを目的としている。【解決手段】 文書に含まれる単語の頻度情報からデータベースを作成し、文書集合と単語集合との間の相関係数が最大となるように文書集合と単語集合とを配置し、次いでシソーラスの情報にもとづいて類似性の大きい単語をまとめる単語間の距離変更を行った上で、再び文書集合と単語集合との配置を決定して、クラスタリングを行う。
請求項(抜粋):
文書の集合を入力とし、文書をその内容により分類する文書分類方法において、前記文書集合に含まれる単語の集合をとり、文書に含まれる単語の頻度情報から、各文書と各単語との間の関連度を表すデータベースを作成する文書・単語間データベース作成過程と、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、文書集合と単語集合との間の相関係数が最大になるように、文書及び単語に数値を割り当てることによって、文書集合と単語集合とのそれぞれの最適な配置を決定する文書・単語最適配置過程と、前記文書・単語最適配置過程で決定された単語集合の配置から、任意の単語間の距離を計算し、シソーラスの情報をもとに、類似性の大きい単語間ほど距離が短くなるように単語間の距離を変更する単語間距離変更過程と、前記単語間距離変更過程で決定された単語間の距離値から算出される類似度をもとに、類似度の大きい単語間ほど距離が短く、類似度の小さい単語間ほど距離が長くなるように、各単語に数値を割り当てることによって単語集合の最適な配置を決定する単語最適配置過程と、文書集合及び単語集合をそれぞれ確率変数と見なし、文書・単語間の関連度を文書集合と単語集合との同時確率分布と見なし、前記単語最適配置過程で決定された単語集合の配置を固定した上で、文書集合と単語集合との間の相関係数が最大になるように、文書に数値を割り当てることによって、文書集合の最適な配置を決定する文書最適配置過程と、前記文書最適配置過程で決定された文書集合の配置から、任意の文書間の距離を計算し、この距離値にもとづいて文書集合のクラスタリングを行い、文書クラスター集合を出力する文書クラスタリング過程とからなることを特徴とする文書分類方法。
IPC (2件):
G06F 17/30 210
, G06F 17/30 170
FI (2件):
G06F 17/30 210 D
, G06F 17/30 170 A
Fターム (4件):
5B075ND03
, 5B075NR02
, 5B075NR12
, 5B075UU06
引用特許:
前のページに戻る