Pat
J-GLOBAL ID:201103010100200073

コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

Inventor:
Applicant, Patent owner:
Agent (4): 橋本 剛 ,  小林 博通 ,  鵜澤 英久 ,  山口 幸二
Gazette classification:公開公報
Application number (International application number):2009183305
Publication number (International publication number):2011039575
Application date: Aug. 06, 2009
Publication date: Feb. 24, 2011
Summary:
【課題】確認に要する人的コストを低減させるとともに、新しい伏字や隠語などの新規のパターンを含むコンテンツの検出洩れを抑制することができるコンテンツ検出支援装置を提供する。【解決手段】特徴量抽出部3が、入力部2で入力されたコンテンツ(文書)に含まれる各単語の特徴量を抽出し、判定ルール生成部8が、訓練データDB7に蓄積された文書とタグを訓練データとして、文書に含まれる各単語(各パターン)が有害情報を表すか否かを判断するための判定ルールを生成し、パターン判定部4が、特徴量抽出部3で抽出された単語とその特徴ベクトルを用い、判定ルール生成部8で生成された判定ルールを適用して、文書中で出現する各単語が有害情報を表すか否かを判定し、パターン領域抽出部5が、パターン判定部4で有害情報を表すと判定された単語を多く含む部分領域(パラグラフ)を抽出する。【選択図】図1
Claim (excerpt):
テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、 前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、 前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、 前記特徴量抽出手段により抽出された前記パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、 前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、 を有することを特徴とするコンテンツ検出支援装置。
IPC (1):
G06F 17/30
FI (3):
G06F17/30 340A ,  G06F17/30 350C ,  G06F17/30 170A
F-Term (7):
5B075ND03 ,  5B075NR02 ,  5B075NR20 ,  5B075PQ75 ,  5B075PR08 ,  5B075QM08 ,  5B075QP10
Patent cited by the Patent:
Cited by applicant (2) Cited by examiner (2)

Return to Previous Page