特許
J-GLOBAL ID:201103002126321569

音響モデルの話者適応装置及びそのためのコンピュータプログラム

発明者:
出願人/特許権者:
代理人 (1件): 清水 敏
公報種別:公開公報
出願番号(国際出願番号):特願2009-196757
公開番号(公開出願番号):特開2011-048163
出願日: 2009年08月27日
公開日(公表日): 2011年03月10日
要約:
【課題】高い汎化能力を持ち、少ない適応データで話者独立な音響モデルを話者適応できる話者適応装置を提供する。【解決手段】話者適応装置は、話者適応のための変換行列及び話者適応用データを記憶する記憶装置と、話者独立な音響モデルに変換行列を適用し、話者適応音響モデルを算出する音響モデル変換部150と、話者適応用データのうち正解データの事後確率が所定範囲に存在するフレームを選択するフレーム選択部142と、選択されたフレームを用い、ソフトマージン推定の目的関数の値を算出する目的関数算出部144、146と、最適化アルゴリズムを用い、目的関数の値を極小化するよう変換行列を更新する更新部148と、更新後の変換行列を用い、音響モデル変換部150、フレーム選択部142、目的関数算出部144,146、及び更新部150を終了条件が充足されるまで繰返し動作させる繰返し制御部154とを含む。【選択図】 図6
請求項(抜粋):
話者独立な音響モデルを、話者適応用のデータを用いた識別学習により、特定話者に適応させる話者適応装置であって、 話者適応のための変換行列及び前記話者適応用のデータを記憶するための記憶手段と、 前記話者独立な音響モデルに、前記変換行列を適用して、前記特定話者に適応した音響モデルを算出するための音響モデル変換手段と、 前記記憶手段に記憶された話者適応用データに含まれるフレームのうち、前記特定話者に適応した音響モデルにより算出された正解データの信頼度が所定範囲に存在するフレームを選択するためのフレーム選択手段と、 前記フレーム選択手段により選択されたフレームを用い、予め識別学習のために準備されたソフトマージン推定のための、経験リスクと汎化項との重み付き和からなる目的関数であって、前記変換行列の関数である目的関数の値を算出するための目的関数算出手段と、 所定の最適化アルゴリズムを用い、前記目的関数算出手段により算出される目的関数の値を極小化するよう、前記変換行列を更新するための更新手段と、 前記変換行列計算手段により更新された変換行列を新たな変換行列として、前記音響モデル変換手段、前記フレーム選択手段、前記目的関数算出手段、及び前記更新手段を所定の終了条件が充足されるまで繰返し動作させるための繰返し制御手段とを含む、話者適応装置。
IPC (1件):
G10L 15/06
FI (1件):
G10L15/06 310S
Fターム (1件):
5D015GG01
引用特許:
出願人引用 (2件)
引用文献:
出願人引用 (4件)
  • "Soft Margin Estimation of Hidden Markov Model Parameters"
  • "APPROXIMATE TEST RISK MINIMIZATION THROUGH SOFT MARGIN ESTIMATION"
  • "Approximate Test Risk Bound MinimizationThrough Soft Margin Estimation"
全件表示

前のページに戻る