特許
J-GLOBAL ID:200903091741660742

日本語テキスト自動分類方法

発明者:
出願人/特許権者:
代理人 (1件): 三好 秀和 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平6-310875
公開番号(公開出願番号):特開平8-166965
出願日: 1994年12月14日
公開日(公表日): 1996年06月25日
要約:
【要約】【目的】 予めいくつかのカテゴリに分類されたテキストデータベースに対して、カテゴリ固有の単語(名詞、動詞、形容詞、形容動詞)および修飾語・被修飾語対等の言語表現の出現頻度情報を学習することによって新規に入力された日本語テキストを自動的に分類する日本語テキスト自動分類方法を提供する。【構成】 分類ルール自動学習部17が学習用テキスト蓄積装置6をアクセスして分類済みのテキストから学習することにより対カテゴリ言語表現重要度テーブル7および対カテゴリ言語表現重要度テーブル8を作成し、ユーザテキスト入力装置19から入力されたテキストに対してテキスト自動分類部18が対カテゴリ言語表現重要度テーブル8をアクセスして分類した結果を分類結果表示装置20から出力する。
請求項(抜粋):
日本語のテキストに対して単語および単語の組の頻度を特徴として抽出し、テキストの分類を行う日本語テキスト自動分類方法であって、分類済みテキストアクセス工程にて学習用テキスト蓄積装置に蓄積されている分類ルール抽出のためのテキストをカテゴリ毎にアクセスし、言語表現頻度解析工程にて入力テキスト中の名詞、動詞、形容詞、形容動詞、および修飾語・被修飾語対といった言語表現の出現頻度を計測し、対カテゴリ言語表現頻度テーブル作成工程にて各カテゴリ毎の言語表現の出現頻度の蓄積テーブルを作成し、頻度計測終了判定の後に、対カテゴリ言語表現重要度テーブル作成工程にて、各カテゴリ毎の言語表現の出現頻度を正規化した値の蓄積テーブルを作成する分類ルール自動学習工程と、新規テキスト入力工程にてカテゴリ判定のための新規テキストを入力し、言語表現類似度判定工程にて新規のテキストに出現する言語表現の頻度と、カテゴリ毎の言語表現重要度との類似度を計算した後、該新規テキストのカテゴリを判定し、分類結果出力工程にて前記新規テキストのカテゴリ判定結果を出力するテキスト自動分類工程とを備えたことを特徴とする日本語テキスト自動分類方法。
IPC (2件):
G06F 17/30 ,  G06F 17/27
FI (3件):
G06F 15/403 350 Z ,  G06F 15/38 D ,  G06F 15/403 340 B

前のページに戻る