特許
J-GLOBAL ID:201303033893159219
データ分析装置、データ分析方法及びプログラム
発明者:
出願人/特許権者:
代理人 (3件):
藤井 正弘
, 後藤 政喜
, 飯田 雅昭
公報種別:公開公報
出願番号(国際出願番号):特願2011-278903
公開番号(公開出願番号):特開2013-130965
出願日: 2011年12月20日
公開日(公表日): 2013年07月04日
要約:
【課題】複数の要素から成るオブジェクトをすべて相互比較することなく類似する可能性のあるオブジェクトを高速に特定する。【解決手段】入力されたデータを分析し、類似するデータ毎に分類するデータ分析装置であって、処理対象のデータを要素とする集合である複数のオブジェクトの入力を受け付け、ハッシュ関数を用いて各オブジェクトのハッシュ値を算出するハッシュ値算出部と、ハッシュ値が同一であるオブジェクトから構成される初期クラスタを生成するクラスタリング部と、類似する初期クラスタから構成される最終クラスタを生成するクラスタマージ部と、を備え、ハッシュ値算出部は、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出するハッシュ関数を用いる。【選択図】図1
請求項(抜粋):
プロセッサと、前記プロセッサに接続される主記憶装置と、前記プロセッサに接続され、データを入出力する入出力装置とを備え、入力された前記データを分析し、類似するデータ毎に分類するデータ分析装置であって、
前記入出力装置は、処理対象のデータを要素とする集合である複数のオブジェクトの入力を受け付け、
前記データ分析装置は、
所定のハッシュ関数を用いて前記各オブジェクトのハッシュ値を算出するハッシュ値算出部と、
前記算出されたハッシュ値に基づいて、前記算出されたハッシュ値が同一である前記オブジェクトから構成される初期クラスタを生成するクラスタリング部と、
前記算出されたハッシュ値に基づいて、前記各初期クラスタが取り得る前記ハッシュ値の範囲を特定し、前記特定されたハッシュ値の範囲に基づいて類似する前記初期クラスタを検索し、前記検索された初期クラスタから構成される最終クラスタを生成するクラスタマージ部と、
を備え、
前記ハッシュ値算出部は、集合に含まれる要素が所定数以上一致する類似関係を満たすオブジェクトのハッシュ値の種類が限定され、かつ、前記類似関係を満たさないオブジェクトに対しては異なるハッシュ値を算出する前記ハッシュ関数を用いることを特徴とするデータ分析装置。
IPC (2件):
FI (3件):
G06F17/30 210D
, G06F17/30 412
, G06F19/00 130
引用特許:
前のページに戻る