特許
J-GLOBAL ID:200903096190810065

単語自動分類装置及び単語自動分類方法

発明者:
出願人/特許権者:
代理人 (1件): 後藤 洋介 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-306966
公開番号(公開出願番号):特開平11-143875
出願日: 1997年11月10日
公開日(公表日): 1999年05月28日
要約:
【要約】【課題】 より精度が高くかつ効率的な単語分類を実現することである。【解決手段】 本発明の単語自動分類装置は、統計処理部1、単語自動分類部2を備える。統計処理部1は、文章を入力し、単語と単語の特定の文脈における共起頻度を統計する。その後、単語自動分類部2は、統計処理部1から単語と単語の共起頻度を入力し、確率モデルの推定問題として単語の分類を行ない、単語分類を出力する。単語の自動分類問題を二つの単語集合の分割の直積上に定義される確率モデルの推定問題として捉え、各単語対の発生確率をクラスタ対の発生確率にそれぞれの単語の条件付き確率を乗じた確率と定義する確率モデルの中から、情報量基準を用いて確率モデルを選択し、ボトムアップ的に二つの単語集合に対して交互にクラスタリングを行う。
請求項(抜粋):
文章を入力とし、任意の単語集合対について、両単語集合に属する単語間の入力文章における共起頻度を統計し、共起頻度データを作成する統計処理部と、該統計処理部により計算された前記共起頻度データに基づき、複数の単語クラスタを併合する操作を再帰的に交互に両集合について行ない、分類された両単語集合のシソーラスを出力する単語自動分類部を具備して構成され、該単語自動分類部は、各単語対の発生確率を、それらが属する単語クラスタ対の共起確率に各単語の条件付き確率を乗じた確率として定義する確率モデルから発生されたものであるとし、前記両単語集合における単語の分類問題を前記確率モデルの推定問題として捉え、記述長最小原理等の情報量基準を用いて、再帰的に併合する際の最も効果的な複数の単語クラスタを判定した後、前記シソーラスを出力することを特徴とする単語自動分類装置。

前のページに戻る