特許
J-GLOBAL ID:201403099226088913

ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム

発明者:
出願人/特許権者:
代理人 (2件): 上野 剛史 ,  太佐 種一
公報種別:公開公報
出願番号(国際出願番号):特願2013-099645
公開番号(公開出願番号):特開2014-219605
出願日: 2013年05月09日
公開日(公表日): 2014年11月20日
要約:
【課題】豊富に存在する音響環境の異なる音声データを再利用してターゲットドメインの音声データをシミュレートする手法を提供することを目的とする。【解決手段】本発明は、ターゲットドメインの少量のクリーンな音声データを用いて学習されたターゲットドメインのGMMを参照して、入力として受け取ったソースドメインの音声データを、ターゲットドメインの音声データのチャネル特性に基づいてマッピングし、マッピングしたソースドメインの音声データに、ターゲットドメインのノイズを加えて、擬似的なターゲットドメインの音声データを出力する。【選択図】図2A
請求項(抜粋):
コンピュータの演算処理により、ソースドメインの音声データを利用してターゲットドメインの学習用の音声データを生成する方法であって、ターゲットドメインのクリーンな音声データを用いて学習された前記ターゲットドメインの混合ガウスモデル(Gaussian mixture model :GMM)を読み出すステップと、前記ターゲットドメインのGMMを参照して、入力として受け取ったソースドメインの音声データを、前記ターゲットドメインの音声データに、該ターゲットドメインの音声データのチャネル特性に基づきマッピングするステップと、マッピングした前記ソースドメインの音声データに、前記ターゲットドメインのノイズを加えて、擬似的なターゲットドメインの音声データを出力するステップと、 を含む学習データ生成方法。
IPC (3件):
G10L 15/06 ,  G10L 15/20 ,  G10L 15/14
FI (3件):
G10L15/06 300Z ,  G10L15/20 153 ,  G10L15/14 200Z
引用特許:
審査官引用 (3件)

前のページに戻る