特許
J-GLOBAL ID:200903083798662897

文書処理装置及び文書処理方法、文書処理プログラム

発明者:
出願人/特許権者:
代理人 (1件): 柳澤 正夫
公報種別:公開公報
出願番号(国際出願番号):特願2002-076919
公開番号(公開出願番号):特開2003-281159
出願日: 2002年03月19日
公開日(公表日): 2003年10月03日
要約:
【要約】【課題】 文書群に対して、当該文書群の内容を把握し、識別するのに適切なキーワードを文書群にラベルとして付与可能な文書処理装置を提供する。【解決手段】 形態素解析部1で文書群中の各文書からキーワードの候補となる語句を抽出し、スコア計算部2において各語句の重要度を示すスコアを計算する。修正スコア計算部3は、スコア計算部2で計算されたスコアに対して、例えば語句の文字列長を用いて、例えば文字列長が長いほどスコアが大きくなるように重み付けを行い、修正スコアを算出する。そしてキーワード選択部4において、修正スコアに基づいてキーワードとなる語句を選択する。これによって、文字列長がなるべく長い語句がキーワードとして抽出されるので、短い、抽象的なキーワードを排除して、より文書群の内容を表し、他の文書群との識別性を向上させることのできるキーワードを抽出することができる。
請求項(抜粋):
1ないし複数の文書からなる文書群の内容を表す1ないし複数のキーワードを抽出する文書処理装置において、前記文書群中の各文書から前記キーワードの候補となる語句を抽出する解析手段と、前記語句の重要度を示すスコアをそれぞれの語句ごとに算出するスコア計算手段と、前記スコア計算手段で計算された前記スコアに対して前記語句の文字列長を用いて重み付けを行い修正スコアを算出する修正スコア計算手段と、前記修正スコア計算手段で算出された前記修正スコアに従って前記語句の中から前記キーワードを選択するキーワード選択手段を有することを特徴とする文書処理装置。
IPC (3件):
G06F 17/30 210 ,  G06F 17/30 170 ,  G06F 17/30 350
FI (3件):
G06F 17/30 210 A ,  G06F 17/30 170 A ,  G06F 17/30 350 C
Fターム (5件):
5B075ND02 ,  5B075NK02 ,  5B075NK32 ,  5B075QM05 ,  5B075UU06

前のページに戻る