特許
J-GLOBAL ID:200903053622569053

キーワード自動抽出装置

発明者:
出願人/特許権者:
代理人 (1件): 河原 純一
公報種別:公開公報
出願番号(国際出願番号):特願平5-093655
公開番号(公開出願番号):特開平6-282572
出願日: 1993年03月29日
公開日(公表日): 1994年10月07日
要約:
【要約】【目的】 文の主題を的確に表現したキーワード抽出を可能とし、精度が高いキーワード抽出を可能とする。【構成】 形態素辞書情報展開手段1-4は、各形態素に、品詞情報,意味分類情報,文型情報および注目語情報を展開する。キーワード候補語抽出手段1-6は、この展開結果を利用してキーワード候補語を抽出する。格情報取得手段1-7は、各キーワード候補語に対する格種別を注目語テーブル1-8等を参照して取得し、格タイプ変換テーブル1-9を参照して格種別に格タイプを付与する。頻度情報取得手段1-10は、全形態素数と各キーワード候補語の出現頻度および格タイプ別頻度とを取得する。重要度算出手段1-11は、上述の取得/付与情報を利用して、各キーワード候補語の総合重要度を算出する。キーワード確定手段1-12は、総合重要度に基づき真のキーワードを確定する。
請求項(抜粋):
日本語テキストデータに対する情報検索を行う場合に有効となるキーワードの自動抽出を行うキーワード自動抽出装置において、処理対象の日本語テキストデータから文単位データを切り出す文切り出し手段と、この文切り出し手段によって切り出された文単位データの形態素解析を行う形態素解析手段と、形態素に対する品詞情報,意味分類情報,文型情報および注目語情報を格納する形態素辞書と、この形態素辞書を参照して前記形態素解析手段による形態素解析の対象となった各形態素に対して品詞情報,意味分類情報,文型情報および注目語情報を展開する形態素辞書情報展開手段と、この形態素辞書情報展開手段による展開結果を利用して前記形態素解析手段によって形態素単位に分割された文単位データからキーワード候補語を抽出するキーワード候補語抽出手段と、各注目語について当該注目語と接続するキーワード候補語の格種別を判定するための情報を格納する注目語テーブルと、格種別と格タイプとの対応を示す情報を格納する格タイプ変換テーブルと、前記キーワード候補語抽出手段により抽出された各キーワード候補語に対する格種別を前記形態素辞書および前記注目語テーブルを参照して取得し、前記格タイプ変換テーブルを参照して各キーワード候補語に対する格種別に格タイプを付与する格情報取得手段と、処理対象の日本語テキストデータの全形態素数ならびに前記キーワード候補語抽出手段により抽出された各キーワード候補語の出現頻度および格タイプ別頻度を取得する頻度情報取得手段と、前記格情報取得手段および前記頻度情報取得手段によって取得された情報および付与された情報を利用して前記キーワード候補語抽出手段で抽出された各キーワード候補語の総合重要度を算出する重要度算出手段と、この重要度算出手段によって算出された総合重要度に基づき指定重要度値以上の総合重要度を持つキーワード候補語をキーワードとして確定するキーワード確定手段とを有することを特徴とするキーワード自動抽出装置。
IPC (2件):
G06F 15/40 500 ,  G06F 15/38
引用特許:
審査官引用 (5件)
  • 情報フアイリング装置
    公報種別:公開公報   出願番号:特願平3-221597   出願人:株式会社東芝
  • 特開平3-286372
  • 特開平3-116374
全件表示

前のページに戻る