特許
J-GLOBAL ID:200903020209365614
キーワード抽出装置、キーワード抽出方法、プログラム及び記録媒体
発明者:
,
,
,
出願人/特許権者:
代理人 (1件):
川久保 新一
公報種別:公開公報
出願番号(国際出願番号):特願2007-151234
公開番号(公開出願番号):特開2008-305127
出願日: 2007年06月07日
公開日(公表日): 2008年12月18日
要約:
【課題】様々な省略仕方による略語表記が用いられる文書において、文書のキーワード抽出処理の精度を向上させることができるキーワード抽出装置、キーワード抽出方法、キーワード抽出プログラム及び記録媒体を提供することを目的とする。【解決手段】文書中に同一の事柄を表す複数の省略語表記が存在する場合、それらを同一の語句とみなして、一方の語句を削除し、上記一方の語句の出現頻度を、上記他方の語句の出現頻度に加え、入力文書における語句の重要度を算出し、重要度の高い語句をキーワードとして出力するキーワード抽出装置である。【選択図】図1
請求項(抜粋):
入力文書を特徴付ける語であるキーワードを自動抽出する装置であって、
入力文書を解析することによって、入力文書中を複数の語句に分割し、得られた語句群に含まれている各語句が入力文書中で出現する出現頻度を集計し、記憶装置に記憶する語句出現頻度集計手段と;
上記得られた語句群に含まれている2つの語句によって構成される語句の組について、上記組を構成する一方の語句が他方の語句を省略した関係であるかどうかを判定し、記憶装置に記憶する略語関係判定手段と;
上記略語関係判定手段が略語関係にある組であると判定した場合、上記組を構成する2つの語句が同一の語句であるとみなし、上記一方の語句を、上記語句群から削除し、上記一方の語句の出現頻度と上記他方の語句の出現頻度とを足し合わせた合計出現頻度を、上記他方の語句の出現頻度に変更して、略語の集約処理を行い、記憶装置に記憶する略語集約処理手段と;
上記集約された後の各語句に対して、略語関係にあった語句を集約した後の結果を用いてtf-idf法に代表される統計的な語句の重要度算出手法を用いることによって、各語句の入力文書中における重要度を算出し、記憶装置に記憶する重要度算出手段と;
上記重要度算出手段が算出した重要度が所定の値以上である語句、または、重要度の高い順に各語句を並べられた語句のうちで予め定められた所定数の語句のみをキーワードとして出力するキーワード出力手段と;
を有することを特徴とするキーワード抽出装置。
IPC (1件):
FI (3件):
G06F17/30 210A
, G06F17/30 170A
, G06F17/30 320C
Fターム (3件):
5B075ND03
, 5B075NK32
, 5B075QM05
引用特許:
引用文献:
前のページに戻る