特許
J-GLOBAL ID:201003096170375827

文書分類装置、文書分類方法および文書分類プログラム

発明者:
出願人/特許権者:
代理人 (2件): 磯野 道造 ,  大石 恵
公報種別:公開公報
出願番号(国際出願番号):特願2009-116899
公開番号(公開出願番号):特開2010-267017
出願日: 2009年05月13日
公開日(公表日): 2010年11月25日
要約:
【課題】大量の文書について、著者の興味の変化を反映しながら、類似する内容の文書間の関連付けを行うことを課題とする。【解決手段】本発明の文書分類装置1000は、複数の文書と確率分布モデルで使用される所定の計算式と所定の計算終了条件とを記憶する記憶部2と、文書それぞれが属する文書クラスと単語それぞれが属するトピッククラスとの初期値をランダムに設定する初期設定部3と、文書ごとに属する文書クラスを推定する文書クラス評価部4と、単語ごとに属するトピッククラスを推定するトピッククラス評価部5と、所定の計算終了条件を満たすまで文書クラス評価部4とトピッククラス評価部5とに前記推定を繰り返させる収束判定部6と、文書クラスの内容を含む計算結果を出力する出力部7と、を備える。【選択図】図2
請求項(抜粋):
電子データである複数の文書について、 前記複数の文書それぞれを内容が類似する文書集合である複数の文書クラスのいずれかに属させ、前記複数の文書を構成する単語それぞれを内容が類似する単語集合である複数のトピッククラスの1つ以上に確率的に属させ、前記文書の著者それぞれを1つ以上の前記文書クラスに確率的に属させ、前記文書クラスそれぞれを1つ以上の前記トピッククラスに関連付ける所定の確率分布モデルに基づいて、計算を行う文書分類装置であって、 前記複数の文書と、前記確率分布モデルで使用され前記文書ごとにその属する前記文書クラスを推定するための第1の計算式と、前記確率分布モデルで使用され前記単語ごとにその属する前記トピッククラスを推定するための第2の計算式と、所定の計算終了条件と、を記憶する記憶部と、 前記文書それぞれが属する文書クラスと、前記単語それぞれが属するトピッククラスと、の初期値をランダムに設定する初期設定部と、 前記第1の計算式に基づいて、前記文書ごとに、全ての前記文書クラスそれぞれに対して属する確率を計算し、その確率が最も高い文書クラスを、当該文書とその著者とが属する前記文書クラスとして推定する文書クラス評価部と、 前記第2の計算式に基づいて、前記単語ごとに、全ての前記トピッククラスそれぞれに対して属する確率を計算し、その確率が最も高いトピッククラスを、当該単語が属する前記トピッククラスとして推定するトピッククラス評価部と、 前記所定の計算終了条件を満たすまで、前記文書クラス評価部と前記トピッククラス評価部とに、前記推定を繰り返させる収束判定部と、 前記収束判定部によって前記所定の計算終了条件が満たされたと判定されたとき、前記文書クラスごとに属する文書と著者とを含む計算結果を出力する出力部と、 を備えることを特徴とする文書分類装置。
IPC (1件):
G06F 17/30
FI (2件):
G06F17/30 210D ,  G06F17/30 170A
Fターム (2件):
5B075ND03 ,  5B075NR02

前のページに戻る