特許
J-GLOBAL ID:201303086957798381
スパム分類モデル生成装置及び方法及びプログラム
発明者:
,
,
出願人/特許権者:
代理人 (3件):
伊東 忠重
, 伊東 忠彦
, 石原 隆治
公報種別:公開公報
出願番号(国際出願番号):特願2012-110791
公開番号(公開出願番号):特開2013-238983
出願日: 2012年05月14日
公開日(公表日): 2013年11月28日
要約:
【課題】 事例の偏りがある訓練データであっても適切にスパム判別モデルを生成する。【解決手段】 本発明は、スパムページ(spam)または非スパムページ(ham)のいずれかのスパムラベルと特徴ベクトルを有する事例が入力されると、クラス毎に設定されているマージンの大きさに応じて該事例の損失を計算し、該損失の値と事例情報の組を、スパムラベルに応じてspamラベルの配列、またはhamラベルの配列に格納し、損失が最大の事例を当該ラベルの配列から除去し、該損失が最大の事例の特徴ベクトルを抽出し、該特徴ベクトルを用いて該重みベクトルの更新を行い、更新された重みベクトルと、分類データ記憶手段の特徴ベクトルとを用いてスパムスコアを算出し、該スパムスコアが所定の閾値以上の場合はspamと判定し、閾値より小さい場合はhamと判定し、判定結果を出力する。【選択図】 図1
請求項(抜粋):
スパム文書を判別するためのスパム分類モデル生成装置であって、
スパム判定対象のスパムページ(spam)または非スパムページ(ham)のいずれかのスパムラベルと特徴ベクトルを有する事例が入力されると、クラス毎に設定されているマージンの大きさに応じて該事例の損失を計算し、該損失の値と事例情報の組を、スパムラベルに応じてspamラベルの配列、またはhamラベルの配列に格納し、損失が最大の事例を当該ラベルの配列から除去し、該損失が最大の事例の特徴ベクトルを抽出し、該特徴ベクトルを用いて該重みベクトルの更新を行い、更新された該重みベクトル及び抽出された事例の損失、スパムラベルをスパム分類モデル記憶手段に格納するスパム分類モデル生成手段と、
スパム判別対象の事例毎の特徴ベクトルが格納された分類データ記憶手段と、
前記スパム分類モデル記憶手段の前記重みベクトルと、前記分類データ記憶手段の前記特徴ベクトルとを用いてスパムスコアを算出し、該スパムスコアが所定の閾値以上の場合はspamと判定し、閾値より小さい場合はhamと判定し、判定結果を出力するスパム分類手段と、
を有することを特徴とするスパム分類モデル生成装置。
IPC (2件):
FI (3件):
G06F17/30 210D
, G06F17/30 170A
, G06F13/00 540E
Fターム (6件):
5B084AA12
, 5B084AA26
, 5B084AB04
, 5B084CC05
, 5B084CC19
, 5B084CD22
引用特許: