特許
J-GLOBAL ID:201303078755369273

データ匿名化クラスタリング方法、装置およびプログラム

発明者:
出願人/特許権者:
代理人 (4件): 野河 信太郎 ,  甲斐 伸二 ,  金子 裕輔 ,  稲本 潔
公報種別:公開公報
出願番号(国際出願番号):特願2012-113471
公開番号(公開出願番号):特開2013-239118
出願日: 2012年05月17日
公開日(公表日): 2013年11月28日
要約:
【課題】k-member クラスタリングにおいて、より類似性の高いサンプルが同一のクラスターに分類されるようにして、情報の損失量を従来よりも低減する。 【解決手段】メンバシップの制約条件を、一つのサンプルが複数のクラスターに帰属できるように従来のk-member クラスタリングをファジィ化する。そのとき、ファジィメンバシップはクラスターからの距離をもとに(残存メンバシップ)×(類似度)で推定する。クラスターの核となる個体の近傍にメンバシップが高い順にk 個まで個体を結合する。クラスターの核となる個体の探索と核の近傍の個体の探索とを、未結合の個体がk 個未満になるまで繰り返すことにより、匿名化レベルがk のファジィk-member クラスタリングを実現する。【選択図】図1
請求項(抜粋):
多変量データの集合が与えられたとき、コンピュータが類似するk個のデータをまとめたクラスターにそれらのデータを分類し、各データが同一クラスターに属する他のデータと識別できないように匿名化するクラスタリング方法であって、 各データは、1以上のクラスターにファジィ理論のメンバシップ度を有して完全にまたはある程度帰属し得るものとして前記メンバシップ度と関連付けられ、完全な帰属に対応するメンバシップ度からそのデータが帰属する1以上のクラスターのメンバシップ度の総計を差引いた残存メンバシップを算出できるように構成され、かつ、あるデータと他のデータとの類似度が高いほど近く定められたデータ間距離と関連付けられており、 前記コンピュータが、 (1)前記集合に属する一つのデータr1を選択し、 (2)どのクラスターにも帰属しないデータのうちデータr1から最も遠い距離にあるデータr2を探索し、そのクラスターに完全に帰属するメンバシップ度をデータr2に与えて前記クラスターの核とし、 (3)データr2以外のデータであって残存メンバシップがゼロ(0)でないデータのうちで、 帰属度=(前記データの残存メンバシップ)×(データr2との類似度) で算出される帰属度が最も大きいものから順次(k-1)個のデータを前記データr2と同一のクラスターのメンバーとし、 (4)最後に前記クラスターのメンバーとされたデータを前記(1)における新たなデータr1として前記(2)および(3)の処理を実行し、前記集合の各データが少なくともある程度いずれかのクラスターに帰属するまで前記(1)〜(3)を繰り返すデータ匿名化用クラスタリング方法。
IPC (2件):
G06F 17/30 ,  G06N 3/00
FI (3件):
G06F17/30 210D ,  G06F17/30 350C ,  G06N3/00 560A

前のページに戻る