カテゴリ分類と時系列情報に基づくブログスパム判定手法の提案

中村健二; 田中成典; 古田均; 北野光一; 寺口敏生

文献

J-GLOBAL ID：200902267935133678 整理番号：08A0254238

カテゴリ分類と時系列情報に基づくブログスパム判定手法の提案

Proposal for Detection Method of Blog Spam Based on Categorization and Time Series Information

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=08A0254238&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=08A0254238&from=J-GLOBAL&jstjournalNo=Z0778A") }}

著者 (5件)： , , , ,
資料名：
巻： 49 号： 3 ページ： 1119-1130 発行年： 2008年03月15日
JST資料番号： Z0778A ISSN： 0387-5806 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,誰もが気軽に情報発信を行う手段として,ブログ(blog)が注目されている。ブログでは,コメントを用いた情報交換やトラックバックを通じた関連情報の取得が容易である。しかし,それらの機能を対象として,広告や他サイトへの誘導を目的とするスパム投稿の増加が問題となっていることから,投稿のスパム判定を効果的に行うフィルタリング手法が求められている。既存研究では,メールのフィルタリングにおいて,スパムに出現する単語の特徴からスパム判定を行うベイジアンフィルタの研究が成果をあげている。しかし,これをブログに適用した場合,評価値を更新しスパム判定精度を維持するための長期的な人的コストが必要となる問題と,ブログ上の出現単語数の多さからすべての単語の相対的な出現回数が少なくなるためスパム判定の精度が低下するという問題がある。さらに,ブログ上の出現単語が時系列によって変化する点も考慮する必要がある。そこで,本研究では,これらの課題に対して,Webから自動的に取得した情報を用いてスパム判定の評価値を自動更新する手法,単語の相対的な出現回数の少なさに対応するため各単語の評価値をカテゴリ別に算出する手法と時系列情報から単語のスパム確率を補正する手法を用いることで,ブログスパムに適した判定手法の提案を目指す。評価実験では,上述した提案手法を用いた場合と用いなかった場合の比較を行い,提案手法の有用性を実証する。(著者抄録)

, , , , , , , , , , ,
,

その他の情報処理 , 人工知能

引用文献 (20件)：

平成18年度版情報通信白書 (2006).http://www.johotsusintokei.soumu.go.jp/whitepaper/ja/h18/pdf/index.html
O’Reilly, T.: What is Web 2.0; Design Patterns and Business Models for the Next Generation of Software (2005). http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html
総務省: プログ・SNS (ソーシャルネットワーキングサイト) の現状分析及び将来予測, 総務省報道科資料 (2005).
Fetterly, D., Manasse, M. and Najork, M.: Spam, Damn Spam and Statistics; Using Statistical Analysis to Locate Spam Web Pages, Proc.7th International Workshop on the Web and Databases, pp. 1-6, Association for Computing Machinery (2004).
池田大輔, 山田泰寛, 田中省作, 松本英樹: 部分文字列の数え上げによるプログスパムの検出, 情報処理学会データベースシステム研究会研究報告, Vol.2006, No.59, PP. 45-52(2006).

, , , ,

前のページに戻る