特許
J-GLOBAL ID:200903021378359158

教師付きカテゴリ分類装置

発明者:
出願人/特許権者:
代理人 (1件): 井桁 貞一
公報種別:公開公報
出願番号(国際出願番号):特願平6-020441
公開番号(公開出願番号):特開平7-230439
出願日: 1994年02月17日
公開日(公表日): 1995年08月29日
要約:
【要約】 (修正有)【目的】 2値の属性値を持つ複数個の属性を含むデータの教師付きカテゴリ分類装置に関し、信頼性が高く、類似度を生成するときの負荷を軽減する。【構成】 カテゴリ名が付与されたトレーニングデータから、各カテゴリに属するデータの数、カテゴリに属するトレーニングデータ中の各属性 (キーワード) が出現するトレーニングデータの総数、及び各属性の総数を求めて、各属性の各カテゴリ毎の重みを算出しておき、入力された問題データに対して、トレーニングデータに出現する属性の数Nt ,問題データに出現する属性の数Np ,トレーニングデータと問題の両方に出現する属性の数Nc とし、トレーニングデータ及び問題の両方に出現する属性の重みの総和Swとしたとき、入力された問題データとトレーニングデータの類似度をSw× Nc / (Np +Nt -Nc ) で算出し、類似度の最も大きいカテゴリに、該入力された問題データを分類する。
請求項(抜粋):
2値の属性値を持つ複数個の属性 (?B) を含むデータ間の類似性に基づいて、該データに対する教師付きカテゴリ分類問題を解く装置であって、複数個のカテゴリ (?C) の何れかに属する複数個のトレーニングデータ(?@)を解析して、カテゴリ (?C) 別に分類するデータ解析モジュール(11)と、該データ解析モジュール(11)での解析結果によって、各カテゴリ (?C) 毎の、各属性 (?B) に対する重み (?D) を生成する重み生成モジュール(12)とからなる学習部(1) と、上記データ解析モジュール(11)によるトレーニングデータ (?@) の解析結果を格納するデータ格納部(21)と、上記重み生成モジュール(12)によって生成された各属性 (?B) に対する重み (?D) を格納する重み格納部(22)とからなる記憶部(2) と、入力された問題データ (?A) を解析する問題解析モジュール(31)と、問題データ (?A) とトレーニングデータ (?@) との類似度を生成する類似度生成モジュール(32)と、該類似度生成モジュール(32)によって生成された類似度の最も高いデータのカテゴリ名を導出する分類決定モジュール(33)とからなる分類部(3) とを備えて、上記データ解析モジュール(11)において、上記複数個のトレーニングデータ (?@) に出現する属性 (?B) の番号のリストと, 各トレーニングデータ (?@) が属するカテゴリ (?C) の名称と, 属するトレーニングデータの数が最も多いカテゴリ名Cを生成し、上記重み生成モジュール(12)において、各カテゴリ (?C) に属する全てのトレーニングデータ (?@) 中の各属性 (?B) の各カテゴリ (?C) 毎の出現回数を生成し、あるトレーニングデータ (?@) に、ある属性 (?B) が出現すると仮定したときの各カテゴリ (?C) に属する条件付き確率Aと、あるトレーニングデータが、あるカテゴリ (?C) に属すると仮定したときの、各属性 (?B) が、そのカテゴリ(?C) に現れる条件付き確率Bとを生成し、それらの確率Aと確率Bのn乗和(n≧2)を、各属性(?B)の各カテゴリに対する重み(?D)として生成し、データ格納部(21)において、上記データ解析モジュール(11)で生成された、上記複数個のトレーニングデータ (?@) に出現する属性 (?B) の番号のリストに対応するトレーニングデータ(?@)を、トレーニングデータ (?@) の数が最も多いカテゴリCに属するトレーニングデータが最後に検索されるように格納し、上記問題解析モジュール(31)において、トレーニングデータ (?@) に出現する属性 (?B) の番号リストを生成し、上記類似度生成モジュール(32)において、上記入力された問題データ (?A) とトレーニングデータ (?@) の両方に出現する属性 (?B) の数Nc , トレーニングデータ (?@) に出現する属性 (?B) の数Nt , 問題データ (?A) に出現する属性(?B) の数Np を、上記データ格納部(21)と問題解析モジュール(31)からの情報に基づいて生成し、問題データ (?A) と、トレーニングデータ (?@) の両方に出現する属性 (?B) の重みの総和Swを、上記重み格納部(32)から得て、上記問題データ (?A) と、トレーニングデータ (?@) の類似度として、Sw×Nc /(Np +Nt -Nc )を算出し、上記カテゴリCに属するトレーニングデータ(?@)に対しては、該カテゴリC以外のカテゴリ(?C)に属するトレーニングデータ(?@)の最も高い上記類似度を越えたトレーニングデータを検出した時点で、該類似度生成モジュール(32)における処理を中止し、上記分類決定モジュール(33)において、上記類似度生成モジュール(32)で生成された類似度の最も高いトレーニングデータ (?@) のカテゴリ名を、上記入力された問題データ (?A) のカテゴリ名として決定することを特徴とする教師付きカテゴリ分類装置。
IPC (4件):
G06F 15/18 560 ,  G06F 9/44 550 ,  G06T 7/00 ,  G06K 9/66

前のページに戻る