特許
J-GLOBAL ID:200903018692944994

文書処理装置

発明者:
出願人/特許権者:
代理人 (1件): 川▲崎▼ 研二
公報種別:公開公報
出願番号(国際出願番号):特願2005-152398
公開番号(公開出願番号):特開2006-330995
出願日: 2005年05月25日
公開日(公表日): 2006年12月07日
要約:
【課題】 文書をカテゴリに分類し、カテゴリ毎に適切な名称を付与する技術を提供する。【解決手段】 文書処理装置20の制御部21は文書データを受け取ると、文書データを解析し、文字列データを抽出する。そして、抽出した文字列データに基づいて予め定められた複数の単語の各々について、文字列データ内における出現有無を判定し、その判定結果から特徴ベクトルを生成する。生成した特徴ベクトルを元にSVMアルゴリズムを用いて、ユーザが指定したカテゴリ数に文書データを分類する。そして分類したカテゴリ毎に単語の頻出頻度を算出し、頻出頻度が高い単語を表示部23に表示する。このとき、表示する単語に関連づけて格納されている単語が不揮発性記憶部25bに格納されている関連単語表にあれば、その単語も並列して表示する。ユーザは表示された単語を元にカテゴリ名を選択する。制御部21は選択された単語をカテゴリ名として決定する。【選択図】 図3
請求項(抜粋):
文書を電子化した文書データを取得する文書データ入力手段と、 前記文書データを分類するカテゴリの数を受け付けるカテゴリ数指定手段と、 前記文書データ入力手段が取得した文書データを解析し、文字列を表す文字列データを生成する文字列データ生成手段と、 前記文字列データの特徴を検出して前記文書毎の特徴ベクトルを生成する特徴ベクトル生成手段と、 前記文書データ入力手段が取得した各文書データを、前記文書毎の前記特徴ベクトルに基づいて前記カテゴリ数指定手段が受け付けたカテゴリ数となるように分類する分類手段と、 前記文字列データを構成する単語の頻出頻度を前記分類手段によって各カテゴリに分類された文書群から算出する算出手段と、 前記算出手段によって算出された頻出頻度の高い単語に基づいて前記各カテゴリ名を決定するカテゴリ名決定手段と を具備することを特徴とする文書処理装置。
IPC (1件):
G06F 17/30
FI (2件):
G06F17/30 210D ,  G06F17/30 350C
Fターム (4件):
5B075ND07 ,  5B075NR02 ,  5B075NR12 ,  5B075UU33
引用特許:
出願人引用 (1件)

前のページに戻る