特許
J-GLOBAL ID:200903000042760884
文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム
発明者:
,
出願人/特許権者:
代理人 (1件):
特許業務法人湘洋内外特許事務所
公報種別:公開公報
出願番号(国際出願番号):特願2007-181830
公開番号(公開出願番号):特開2009-020646
出願日: 2007年07月11日
公開日(公表日): 2009年01月29日
要約:
【課題】 匿名化する単語の辞書を用意する必要が無く、かつ、単語及びその単語を含む周辺表記の組合せが稀な場合でも適切に匿名化可能な技術を提供する。【解決手段】 文字列を含む文章データの各々を分類条件に従って複数種に分類し、該分類により同一種に分類された文章データ(以下、名寄せデータ)の各々に含まれる単語を複数抽出し、該抽出した単語の各々のうち1つ以上を含む単語組合せの各々のうち、該単語組合せを構成する単語の全てが含まれている名寄せデータの数が閾値以上であるものを抽出し、文章データの各々に含まれる文字列に含まれる単語のうち、抽出した単語のうち少なくとも一部と一致し、かつ、抽出した単語組合せを構成する単語と一致しないものを匿名化する。【選択図】 図1
請求項(抜粋):
各々が文字列を含む複数の文章データを記憶する記憶装置と、
前記文章データの各々を分類条件に従って複数種に分類する名寄せ手段と、
前記分類により同一種に分類された文章データ(以下、名寄せデータ)の各々に含まれる単語を複数抽出する形態素解析手段と、
前記抽出した単語の各々のうち1つ以上を含む単語組合せの各々のうち、該単語組合せを構成する単語の全てが含まれている前記名寄せデータの数が閾値以上であるものを抽出する評価手段と、
前記文章データの各々に含まれる文字列に含まれる単語のうち、前記抽出した単語のうち少なくとも一部と一致し、かつ、前記抽出した単語組合せを構成する単語と一致しないものを匿名化する匿名化手段と、
前記匿名化した単語を含む文章データを出力装置に出力する出力処理手段と、
を有することを特徴とする文字列匿名化装置。
IPC (1件):
FI (2件):
G06F17/21 570M
, G06F17/21 550A
Fターム (10件):
5B009QA02
, 5B009QA03
, 5B009QB14
, 5B009QB16
, 5B009TB13
, 5B109QA02
, 5B109QA03
, 5B109QB14
, 5B109QB16
, 5B109TB13
引用特許:
前のページに戻る