特許
J-GLOBAL ID:201003038069346778

音響処理装置およびプログラム

発明者:
出願人/特許権者:
代理人 (2件): 志賀 正武 ,  高橋 詔男
公報種別:公開公報
出願番号(国際出願番号):特願2008-222817
公開番号(公開出願番号):特開2010-055030
出願日: 2008年08月29日
公開日(公表日): 2010年03月11日
要約:
【課題】字幕と発話内容の一致率が低いオフライン字幕を利用した場合にも、高い認識率によって音響モデルの学習データを自動生成し、多様な発話スタイルに対応できる音響モデルを作成できる音響モデル学習装置を提供する。【解決手段】一致区間のみを切り出して利用するのではなく、その他の区間から得られる情報も、音響モデル学習のために用いる。そのため、音声認識結果と書き起こし字幕テキストの一致区間を利用して学習データを得る際に、各形態素の信頼度を導入することにより、一致区間以外の音声も利用して学習データを自動生成させる。【選択図】図1
請求項(抜粋):
音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、 前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、 前記認識処理部が出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理部と、 前記選択処理部が出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、 を具備することを特徴とする音響処理装置。
IPC (1件):
G10L 15/06
FI (3件):
G10L15/06 300Y ,  G10L15/06 300C ,  G10L15/06 310Z
Fターム (2件):
5D015AA01 ,  5D015GG01
引用特許:
出願人引用 (3件) 審査官引用 (3件)
引用文献:
出願人引用 (1件)
  • "字幕テキストを教師データとした自由発話用音響モデルの学習"
審査官引用 (1件)
  • "字幕テキストを教師データとした自由発話用音響モデルの学習"

前のページに戻る