特許
J-GLOBAL ID:200903099016543294
文書処理装置および文書処理方法
発明者:
出願人/特許権者:
代理人 (2件):
森下 賢樹
, 村田 雄祐
公報種別:公開公報
出願番号(国際出願番号):特願2006-133828
公開番号(公開出願番号):特開2007-304950
出願日: 2006年05月12日
公開日(公表日): 2007年11月22日
要約:
【課題】文書ファイルからの情報抽出精度を向上させる。【解決手段】学習コーパス200の単語は、複数のクラスのいずれかに分類されている。文書処理装置100は、学習コーパス200における単語の素性をクラスごとのクラス素性情報としてクラス素性保持部170に保持する。文書処理装置100は、加工前検査対象文書210から単語を抽出し、加工前検査対象文書210におけるその単語の素性とクラス素性情報の適合度を複数のクラスのそれぞれについて算出し、所定のクラスに対して算出された適合度を調整した上で、各クラスに対する適合度に基づいて抽出した単語に対応するクラスを特定する。そして、特定されたクラス名をタグとして追記することにより加工済検査対象文書212を生成する。【選択図】図1
請求項(抜粋):
複数のクラスに単語を分類した上で、所定のコーパス(corpus)における単語の素性をクラスごとのクラス素性情報として保持するクラス素性保持部と、
検査対象文書を取得する文書取得部と、
前記検査対象文書から単語を抽出する単語抽出部と、
前記検査対象文書における前記抽出された単語の素性とクラス素性情報の適合度を前記複数のクラスのそれぞれについて算出する適合度計算部と、
前記複数のクラスのうち所定のクラスに対して算出された適合度を調整する適合度調整部と、
前記抽出された単語の各クラスに対する適合度に基づいて、前記抽出された単語に対応するクラスを特定するクラス分類部と、
を備えることを特徴とする文書処理装置。
IPC (2件):
FI (2件):
G06F17/28 U
, G06F17/30 220Z
Fターム (8件):
5B075NR05
, 5B075NS10
, 5B091AA15
, 5B091AB06
, 5B091CC16
, 5B091EA01
, 5B091EA02
, 5B091EA24
前のページに戻る