特許
J-GLOBAL ID:200903040904408503

文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 酒井 昭徳
公報種別:公開公報
出願番号(国際出願番号):特願2000-306537
公開番号(公開出願番号):特開2002-117046
出願日: 2000年10月05日
公開日(公表日): 2002年04月19日
要約:
【要約】【課題】 電子化された文書をあらかじめ設定されたカテゴリのいずれかに分類する文書分類装置において、分類対象文書群の特性に見合った分類体系を常に維持できるようにし、分類対象文書群の質的変化にともなう分類精度の低下を防止すること。【解決手段】 文書が分類される各カテゴリ(分類不能カテゴリを含む)の特徴ベクトル空間を推定する特徴ベクトル空間推定部202と、各文書の特徴ベクトルと各カテゴリの特徴ベクトル空間とを比較して各文書の分類先を推定する分類カテゴリ推定部203と、分類不能カテゴリが分類先として推定される頻度が一定の閾値を上回ったかどうかを判定するカテゴリ体系管理部204と、閾値を上回った場合に新たなカテゴリの追加を操作者に対して推奨するユーザーインターフェース部205とを備える。カテゴリの分割・削除あるいは併合も可能である。
請求項(抜粋):
電子化された文書をあらかじめ設定されたカテゴリのうちいずれか一つに分類する文書分類装置において、訓練用文書集合を構成する各文書の特徴ベクトルから前記各カテゴリの特徴ベクトル空間を推定する第1の特徴ベクトル空間推定手段と、すべてのベクトルの長さが等しい特徴ベクトル空間、訓練用文書集合の特徴ベクトル空間および分類対象文書集合の特徴ベクトル空間の重み付き平均から分類不能カテゴリの特徴ベクトル空間を推定する第2の特徴ベクトル空間推定手段と、前記第1の特徴ベクトル空間推定手段により推定された各カテゴリの特徴ベクトル空間および前記第2の特徴ベクトル空間推定手段により推定された分類不能カテゴリの特徴ベクトル空間と、分類対象文書集合を構成する各文書の特徴ベクトルとを比較することにより、前記各カテゴリまたは前記分類不能カテゴリのうちいずれか一つを前記各文書の分類先のカテゴリと推定する分類カテゴリ推定手段と、前記分類カテゴリ推定手段により分類不能カテゴリが分類先のカテゴリと推定される頻度が一定の閾値を上回ったかどうかを判定するカテゴリ追加要否判定手段と、前記カテゴリ追加要否判定手段により分類不能カテゴリが分類先のカテゴリと推定される頻度が一定の閾値を上回ったと判定された場合に、新たなカテゴリの追加を操作者に対して推奨するカテゴリ追加推奨手段と、を備えたことを特徴とする文書分類装置。
IPC (4件):
G06F 17/30 210 ,  G06F 17/30 170 ,  G06F 17/30 340 ,  G06F 17/30 350
FI (4件):
G06F 17/30 210 D ,  G06F 17/30 170 A ,  G06F 17/30 340 B ,  G06F 17/30 350 C
Fターム (6件):
5B075NK46 ,  5B075NR12 ,  5B075PP03 ,  5B075PQ46 ,  5B075PR04 ,  5B075UU06

前のページに戻る