連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法

発明者：
出願人/特許権者：
代理人 (1件)：鄒静文
公報種別：公開公報
出願番号（国際出願番号）：特願2018-199173
公開番号（公開出願番号）：特開2019-079536
出願日： 2018年10月23日
公開日（公表日）： 2019年05月23日
要約：

【課題】本発明は連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法を開示した。【解決手段】まずNクラスデータサンプルセットと対応するラベルセットを取得し前処理し、その同時にデータプリセットフォーマット、ラベルプリセットフォーマットを取得し、それから深層学習ニューラルネットワークに対し訓練を行い、それから各クラスの任意一つのテストデータを当該クラスのデータプリセットフォーマットに変換した後に当該クラスの深層学習ニューラルネットワークの入力とし、対応するテスト出力ラベルを取得し、それからテスト出力ラベルが存在するラベルセットの要素の数及びデータセットの間の類似度の計算に基づき、可能出力ラベル及び最優出力ラベルを確定し、それから各クラスの出力ラベルが一致すると一致しない確率を計算し、最後に可能、最優出力ラベル及び前記の確率を出力する。【選択図】図1

請求項（抜粋）：

連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法は、ステップ1〜9を含み、ステップ1は、まずNクラスデータサンプルセットと各クラスのデータサンプルセットが対応するラベルセットを取得し、また前記Nクラスデータサンプルセットの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得し、それからNクラスデータサンプルセットとラベルセットを前処理し、前記Nが1以上であり、ステップ2は、Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化し、ステップ3は、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得し、ステップ4は、各クラスの対応する深層学習ニューラルネットワークのために一つのテストデータを取得し、各クラスのテストデータのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、それから当該テストデータを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該深層学習ニューラルネットワークの計算を通じて当該クラスが対応するテスト出力ラベルを取得し、ステップ5は、ステップ1で前処理されたラベルセットの中で各クラスのテスト出力ラベルが存在するラベルセットを検索し、それから当該ラベルセットが一つのラベル要素しか持っていないかどうかを判断し、もし各クラスのテスト出力ラベルが存在するラベルセットが一つのラベル要素しか持っていなければ、各クラスのテスト出力ラベルを当該クラスの最優出力ラベルとし、そうでなければ次のステップに進み、ステップ6は、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算して決定し、その中に、各組の可能出力ラベルの中には各クラスの一つの可能出力ラベルが含まれ、ステップ7は、各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとし、ステップ8は、可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とし、ステップ9は、可能出力ラベル、最優出力ラベル、各クラスの出力ラベルの一致する確率及び一致しない確率を出力し、前記Nクラスの中の各クラスのデータサンプルのデータプリセットフォーマットを取得し、ラベルプリセットフォーマットも取得するのは、具体的には、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットを取得し、当該クラスの中の同じのデータフォーマットを合併してs 種のデータフォーマットを取得し、当該クラスのデータサンプルセットの中の各種のデータフォーマットPiが対応するデータサンプル数Miを統計し、一番大きなMiが対応データフォーマットPiを当該クラスのデータサンプルのデータプリセットフォーマットとするステップ(sが1以上であり、iが1以上且つs以下である)と、各クラスのデータサンプルセットが対応するラベルセットの中の各ラベルのラベルフォーマットを取得し、すべてのクラスの同じのラベルフォーマットを合併して少なくともt種のラベルフォーマットを取得し、当該クラスのラベルセットの中の各種のラベルフォーマットQjが対応するラベル数Njを統計し、一番大きなNjが対応するラベルフォーマットQjをラベルプリセットフォーマットとする(tが1以上であり、jが1以上且つt以下である)ステップを含み、 Nクラスデータサンプルセットとラベルセットを前処理するステップ1は、具体的にはステップ1-1〜ステップ1-5を含み、ステップ1-1、各クラスのデータサンプルセットの中の各データサンプルのデータフォーマットが当該クラスのデータサンプルのデータプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルのデータフォーマットを当該クラスのデータサンプルのデータプリセットフォーマットに変換し、ステップ1-2、各クラスのデータサンプルセットの中の各データサンプルが対応するラベルのデータフォーマットがラベルプリセットフォーマットに一致するかどうかを判断し、一致でなければ、当該クラスの当該データサンプルが対応するラベルのデータフォーマットをラベルプリセットフォーマットに変換し、ステップ1-3、Nクラスデータサンプルセットの中の各クラスのデータサンプルセットをクラスタリング処理し、J個のクラスタ化されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、ステップ1-4、J個のクラスタ化された出力ラベルセットの各クラスの同じのラベルを合併し、更新されたJ個の出力ラベルセットを取得し、ステップ1-5、更新されたJ個の出力ラベルセットの同じのラベルを持つラベルセット及び対応のデータサンプルセットをそれぞれ合併し、前処理されたデータサンプルセット及びそれに対応する出力ラベルセットを取得し、 Nクラスデータサンプルセットが対応するN個の深層学習ニューラルネットワークを初期化するのは、具体的にはステップ2-1〜2-3を含み、ステップ2-1、各クラスのデータサンプルのデータプリセットフォーマットを当該クラスの対応する深層学習ニューラルネットワークの入力フォーマットとし、ステップ2-2、ラベルプリセットフォーマットを各クラスの対応する深層学習ニューラルネットワークの出力フォーマットとし、ステップ2-3、各クラスの対応する深層学習ニューラルネットワークの構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とし、また当該クラスの対応する深層学習ニューラルネットワークを配置し、各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークの構成情報とするのは、具体的にはステップ2-3-1〜2-3-4を含み、ステップ2-3-1、深層学習ニューラルネットワーク構成知識ベースから入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとが一番一致する深層学習ニューラルネットワークの対応する構成情報を取得し、それを当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、その中に、入力フォーマット、出力フォーマットと各クラスのデータプリセットフォーマット及びラベルプリセットフォーマットとのマッチング程度=入力フォーマットが当該クラスのデータプリセットフォーマットとのマッチング程度×u%+出力フォーマットがラベルプリセットフォーマットとのマッチング程度×(1-u%)、uのデフォルト値が90であり、ステップ2-3-2、各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報をユーザーに出力し、ステップ2-3-3、ユーザーによっての各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報の変更を取得し、ステップ2-3-4、変更された各クラスの対応する深層学習ニューラルネットワークのプリセット構成情報を、当該クラスの対応する深層学習ニューラルネットワークのプリセット構成情報とし、ステップ1で取得した各クラスのデータサンプルセットを入力とし、それに対応するラベルセットを出力とし、当該クラスの対応する深層学習ニューラルネットワークを訓練し、N個の訓練された深層学習ニューラルネットワークを取得するのは、具体的にはステップ3-1〜3-2を含み、ステップ3-1、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスの対応する深層学習ニューラルネットワークに対してアセンディングオーダーの監督なし訓練を行い、ステップ3-2、各クラスのデータサンプルセットの中の各データサンプルを当該クラスの対応する深層学習ニューラルネットワークの入力とし、当該クラスのデータサンプルセットが対応するラベルセットの中の当該データサンプルが対応するラベルを出力とし、当該クラスの対応する深層学習ニューラルネットワークに対しトップダウンの監督学習を行い、N個の訓練された深層学習ニューラルネットワークを取得し、各クラスのテスト出力ラベルが対応するデータサンプルセットと当該クラスのテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、それから当該類似度に基づいて各組の可能出力ラベルを計算決定するのは、具体的には: N=1であれば、テスト出力ラベルが対応するデータサンプルセットとテスト出力ラベルが存在するラベルセットの中の各ラベル要素が対応するデータサンプルセットの類似度を計算し、類似度が第一プリセット値aを超えるすべてのラベル要素を一組の可能出力ラベルとし、 N>1であれば、第iクラスのテスト出力ラベルが対応するデータサンプルセットDiを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中のラベル要素の数miを取得し、第iクラスのテスト出力ラベルが存在するラベルセットの中の第j個のラベル要素が対応するデータサンプルセットDijを取得し、DiとDijの類似度Pijを計算し、その中に、iが1からNまでの各自然数であり、jが1からmiまでの各自然数であり、 k1、k2、...、kNの各値に対し、類似度第一綜合値f(P1k1、P2k2、...、PNkN)を計算し、もしf(P1k1、P2k2、...、PNkN)が第二プリセット値bより大きければ、第一クラスのテスト出力ラベルが存在するラベルセットの中の第k1番のラベル要素、第二クラスのテスト出力ラベルが存在するラベルセットの中の第k2番のラベル要素、...、第Nクラスのテスト出力ラベルが存在するラベルセットの中の第kN番のラベル要素を、一組の可能出力ラベルとし、その中に、k1が1からm1までの各自然数であり、k2が1からm2までの各自然数であり、...、kNが1からmNまでの各自然数であり、f(P1k1、P2k2、...、PNkN)が(P1k1、P2k2、...、PNkN)の乗積であり、データサンプルセットAとデータサンプルセットBの類似度=max(データサンプルセットAの中の各サンプルとデータサンプルセットBの中の各サンプルの類似度)、各組の可能出力ラベルの中の各クラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、また当該類似度に基づいて一組の可能出力ラベルを計算決定して最優出力ラベルとするのは、具体的には: N=1の場合、各組の可能出力ラベルの中の可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度を計算し、一番大きな類似度が対応する一組の可能出力ラベルを取得して一組の最優出力ラベルとし、 N>1の場合、各組の可能出力ラベルの中の第iクラスの可能出力ラベルが対応するデータサンプルセットと当該クラスのテストデータセットの類似度Piを計算し、それから類似度第二綜合値g(P1、P2、...、PN)を計算し、一番大きな類似度第二綜合値が対応する一組の可能出力ラベルを取得し一組の最優出力ラベルとし、その中にg(P1、P2、...、PN)が(P1、P2、...、PN)の乗積であり、その中に、iが1からNまでの各自然数であり、可能出力ラベルの中の各クラスの出力ラベルの一致する確率と一致しない確率を計算し、各クラスの出力ラベルの一致する確率と一致しない確率とするのは、具体的には:N=1の場合、一クラスの出力ラベルしかなく、従って各クラスの出力ラベルが一致する確率が100%であり、一致しない確率が0%であり、 N>1の場合、まず各組の可能出力ラベルの中の各クラスの可能出力ラベルが一致するかどうかを判断し、また一致すると判断される各組の可能出力ラベルが対応する類似度第二綜合値の和をすべての可能出力ラベルが対応する類似度第二綜合値の和と除算し、各クラスの出力ラベルが一致する確率を取得し、最後に100%から各クラスの出力ラベルが一致する確率を引いて各クラスの出力ラベルの一致しない確率を取得する。

IPC (4件)：

G06N 3/04 , G06F 16/00 , G06N 3/08 , G06N 20/00

FI (4件)：

G06N3/04 154 , G06F17/30 210D , G06N3/08 , G06N99/00 153

前のページに戻る