スパム分類モデル生成装置及び方法及びプログラム

発明者： , ,
出願人/特許権者：
代理人 (3件)：伊東忠重 , 伊東忠彦 , 石原隆治
公報種別：公開公報
出願番号（国際出願番号）：特願2012-110791
公開番号（公開出願番号）：特開2013-238983
出願日： 2012年05月14日
公開日（公表日）： 2013年11月28日
要約：

【課題】事例の偏りがある訓練データであっても適切にスパム判別モデルを生成する。【解決手段】本発明は、スパムページ(spam)または非スパムページ(ham)のいずれかのスパムラベルと特徴ベクトルを有する事例が入力されると、クラス毎に設定されているマージンの大きさに応じて該事例の損失を計算し、該損失の値と事例情報の組を、スパムラベルに応じてspamラベルの配列、またはhamラベルの配列に格納し、損失が最大の事例を当該ラベルの配列から除去し、該損失が最大の事例の特徴ベクトルを抽出し、該特徴ベクトルを用いて該重みベクトルの更新を行い、更新された重みベクトルと、分類データ記憶手段の特徴ベクトルとを用いてスパムスコアを算出し、該スパムスコアが所定の閾値以上の場合はspamと判定し、閾値より小さい場合はhamと判定し、判定結果を出力する。【選択図】図1

請求項（抜粋）：

スパム文書を判別するためのスパム分類モデル生成装置であって、スパム判定対象のスパムページ(spam)または非スパムページ(ham)のいずれかのスパムラベルと特徴ベクトルを有する事例が入力されると、クラス毎に設定されているマージンの大きさに応じて該事例の損失を計算し、該損失の値と事例情報の組を、スパムラベルに応じてspamラベルの配列、またはhamラベルの配列に格納し、損失が最大の事例を当該ラベルの配列から除去し、該損失が最大の事例の特徴ベクトルを抽出し、該特徴ベクトルを用いて該重みベクトルの更新を行い、更新された該重みベクトル及び抽出された事例の損失、スパムラベルをスパム分類モデル記憶手段に格納するスパム分類モデル生成手段と、スパム判別対象の事例毎の特徴ベクトルが格納された分類データ記憶手段と、前記スパム分類モデル記憶手段の前記重みベクトルと、前記分類データ記憶手段の前記特徴ベクトルとを用いてスパムスコアを算出し、該スパムスコアが所定の閾値以上の場合はspamと判定し、閾値より小さい場合はhamと判定し、判定結果を出力するスパム分類手段と、を有することを特徴とするスパム分類モデル生成装置。

IPC (2件)：

G06F 17/30 , G06F 13/00

FI (3件)：

G06F17/30 210D , G06F17/30 170A , G06F13/00 540E

Fターム (6件)：

5B084AA12 , 5B084AA26 , 5B084AB04 , 5B084CC05 , 5B084CC19 , 5B084CD22

引用特許：

審査官引用 (4件)

電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
公報種別：公開公報出願番号：特願2001-256795 出願人：KDDI株式会社
迷惑メール自動判定機能を有する通信装置
公報種別：公開公報出願番号：特願2003-138894 出願人：三洋電機株式会社, 三洋テレコミュニケーションズ株式会社
スパムブログ検知装置、スパムブログ検知方法及びプログラム
公報種別：公開公報出願番号：特願2008-232299 出願人：KDDI株式会社

全件表示

引用文献：

審査官引用 (2件)

評価指標をマージンに反映したオンラインランキング学習
機械学習を用いたスパムブログ検出における信頼度の利用

前のページに戻る