特許
J-GLOBAL ID:201403099226088913
ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
発明者:
,
出願人/特許権者:
代理人 (2件):
上野 剛史
, 太佐 種一
公報種別:公開公報
出願番号(国際出願番号):特願2013-099645
公開番号(公開出願番号):特開2014-219605
出願日: 2013年05月09日
公開日(公表日): 2014年11月20日
要約:
【課題】豊富に存在する音響環境の異なる音声データを再利用してターゲットドメインの音声データをシミュレートする手法を提供することを目的とする。【解決手段】本発明は、ターゲットドメインの少量のクリーンな音声データを用いて学習されたターゲットドメインのGMMを参照して、入力として受け取ったソースドメインの音声データを、ターゲットドメインの音声データのチャネル特性に基づいてマッピングし、マッピングしたソースドメインの音声データに、ターゲットドメインのノイズを加えて、擬似的なターゲットドメインの音声データを出力する。【選択図】図2A
請求項(抜粋):
コンピュータの演算処理により、ソースドメインの音声データを利用してターゲットドメインの学習用の音声データを生成する方法であって、ターゲットドメインのクリーンな音声データを用いて学習された前記ターゲットドメインの混合ガウスモデル(Gaussian mixture model :GMM)を読み出すステップと、前記ターゲットドメインのGMMを参照して、入力として受け取ったソースドメインの音声データを、前記ターゲットドメインの音声データに、該ターゲットドメインの音声データのチャネル特性に基づきマッピングするステップと、マッピングした前記ソースドメインの音声データに、前記ターゲットドメインのノイズを加えて、擬似的なターゲットドメインの音声データを出力するステップと、
を含む学習データ生成方法。
IPC (3件):
G10L 15/06
, G10L 15/20
, G10L 15/14
FI (3件):
G10L15/06 300Z
, G10L15/20 153
, G10L15/14 200Z
引用特許:
前のページに戻る