Pat
J-GLOBAL ID:200903083798662897

文書処理装置及び文書処理方法、文書処理プログラム

Inventor:
Applicant, Patent owner:
Agent (1): 柳澤 正夫
Gazette classification:公開公報
Application number (International application number):2002076919
Publication number (International publication number):2003281159
Application date: Mar. 19, 2002
Publication date: Oct. 03, 2003
Summary:
【要約】【課題】 文書群に対して、当該文書群の内容を把握し、識別するのに適切なキーワードを文書群にラベルとして付与可能な文書処理装置を提供する。【解決手段】 形態素解析部1で文書群中の各文書からキーワードの候補となる語句を抽出し、スコア計算部2において各語句の重要度を示すスコアを計算する。修正スコア計算部3は、スコア計算部2で計算されたスコアに対して、例えば語句の文字列長を用いて、例えば文字列長が長いほどスコアが大きくなるように重み付けを行い、修正スコアを算出する。そしてキーワード選択部4において、修正スコアに基づいてキーワードとなる語句を選択する。これによって、文字列長がなるべく長い語句がキーワードとして抽出されるので、短い、抽象的なキーワードを排除して、より文書群の内容を表し、他の文書群との識別性を向上させることのできるキーワードを抽出することができる。
Claim (excerpt):
1ないし複数の文書からなる文書群の内容を表す1ないし複数のキーワードを抽出する文書処理装置において、前記文書群中の各文書から前記キーワードの候補となる語句を抽出する解析手段と、前記語句の重要度を示すスコアをそれぞれの語句ごとに算出するスコア計算手段と、前記スコア計算手段で計算された前記スコアに対して前記語句の文字列長を用いて重み付けを行い修正スコアを算出する修正スコア計算手段と、前記修正スコア計算手段で算出された前記修正スコアに従って前記語句の中から前記キーワードを選択するキーワード選択手段を有することを特徴とする文書処理装置。
IPC (3):
G06F 17/30 210 ,  G06F 17/30 170 ,  G06F 17/30 350
FI (3):
G06F 17/30 210 A ,  G06F 17/30 170 A ,  G06F 17/30 350 C
F-Term (5):
5B075ND02 ,  5B075NK02 ,  5B075NK32 ,  5B075QM05 ,  5B075UU06

Return to Previous Page