特許
J-GLOBAL ID:200903030399175919
属性抽出処理方法及び装置
発明者:
出願人/特許権者:
代理人 (1件):
原田 一男
公報種別:公開公報
出願番号(国際出願番号):特願2007-333704
公開番号(公開出願番号):特開2009-157553
出願日: 2007年12月26日
公開日(公表日): 2009年07月16日
要約:
【課題】スパムブログを精度良く検出する。【解決手段】本属性抽出処理方法は、文書毎に当該文書と登録日と属性(URL)とが格納されているコンテンツ格納部から、特定の単位期間内に登録日が含まれる複数の文書から属性の属性値毎に特徴語(例えば固有名詞)を抽出し、属性の属性値と特定の単位期間と抽出された特徴語とを対応付けてワークコンテンツ格納部に登録する工程と、ワークコンテンツ格納部から、対応付けられた属性が第1の属性値であって且つ特定の期間に対応付けられている特徴語である第1の特徴語と、対応付けられた属性が第2の属性値であって且つ特定の期間に対応付けられている特徴語である第2の特徴語とを読み出し、第1の特徴語と第2の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する工程と、類似度が所定の条件を満たしている場合には、第2の属性値を出力する工程とを含む。【選択図】図2
請求項(抜粋):
文書毎に当該文書と登録日と属性とが格納されているコンテンツ格納部と、ワークコンテンツ格納部とにアクセス可能なコンピュータにより実行される属性抽出処理方法であって、
前記コンテンツ格納部から、特定の単位期間内に前記登録日が含まれる複数の文書から前記属性の属性値毎に特徴語を抽出し、前記属性の属性値と前記特定の単位期間と抽出された前記特徴語とを対応付けて前記ワークコンテンツ格納部に登録するステップと、
前記ワークコンテンツ格納部から、対応付けられた前記属性が第1の属性値であって且つ特定の期間に対応付けられている特徴語である第1の特徴語と、対応付けられた前記属性が第2の属性値であって且つ前記特定の期間に対応付けられている特徴語である第2の特徴語とを読み出し、前記第1の特徴語と前記第2の特徴語との類似度を算出し、当該類似度が所定の条件を満たしているか判断する判断ステップと、
前記類似度が所定の条件を満たしている場合には、前記第2の属性値を出力するステップと、
を含む属性抽出処理方法。
IPC (2件):
FI (3件):
G06F17/30 170A
, G06F17/30 350C
, G06F13/00 540E
Fターム (4件):
5B075NK10
, 5B075NK32
, 5B075QM05
, 5B075UU24
引用特許:
出願人引用 (2件)
-
情報収集装置
公報種別:公開公報
出願番号:特願2000-095997
出願人:沖電気工業株式会社
-
情報監視装置
公報種別:公開公報
出願番号:特願2003-072311
出願人:三菱電機株式会社
審査官引用 (4件)