特許
J-GLOBAL ID:201103010100200073

コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

発明者:
出願人/特許権者:
代理人 (4件): 橋本 剛 ,  小林 博通 ,  鵜澤 英久 ,  山口 幸二
公報種別:公開公報
出願番号(国際出願番号):特願2009-183305
公開番号(公開出願番号):特開2011-039575
出願日: 2009年08月06日
公開日(公表日): 2011年02月24日
要約:
【課題】確認に要する人的コストを低減させるとともに、新しい伏字や隠語などの新規のパターンを含むコンテンツの検出洩れを抑制することができるコンテンツ検出支援装置を提供する。【解決手段】特徴量抽出部3が、入力部2で入力されたコンテンツ(文書)に含まれる各単語の特徴量を抽出し、判定ルール生成部8が、訓練データDB7に蓄積された文書とタグを訓練データとして、文書に含まれる各単語(各パターン)が有害情報を表すか否かを判断するための判定ルールを生成し、パターン判定部4が、特徴量抽出部3で抽出された単語とその特徴ベクトルを用い、判定ルール生成部8で生成された判定ルールを適用して、文書中で出現する各単語が有害情報を表すか否かを判定し、パターン領域抽出部5が、パターン判定部4で有害情報を表すと判定された単語を多く含む部分領域(パラグラフ)を抽出する。【選択図】図1
請求項(抜粋):
テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、 前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、 前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、 前記特徴量抽出手段により抽出された前記パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、 前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、 を有することを特徴とするコンテンツ検出支援装置。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 340A ,  G06F17/30 350C ,  G06F17/30 170A
Fターム (7件):
5B075ND03 ,  5B075NR02 ,  5B075NR20 ,  5B075PQ75 ,  5B075PR08 ,  5B075QM08 ,  5B075QP10
引用特許:
出願人引用 (2件) 審査官引用 (2件)

前のページに戻る