特許
J-GLOBAL ID:201703006695562906

音響モデル生成装置およびそのプログラム

発明者:
出願人/特許権者:
代理人 (1件): 特許業務法人磯野国際特許商標事務所
公報種別:公開公報
出願番号(国際出願番号):特願2016-032062
公開番号(公開出願番号):特開2017-151198
出願日: 2016年02月23日
公開日(公表日): 2017年08月31日
要約:
【課題】字幕放送の音声の認識結果の誤り率を推定し、誤りによるリスクを最小化する音響モデルを生成する音響モデル生成装置を提供する。【解決手段】音響モデル生成装置1は、事前学習用の放送番組の番組音声を音声認識した認識仮説と字幕テキストとの対応パターンごとに、認識仮説と書き起こしとが一致しないミスマッチパターンの割合を対応付けたミスマッチ割合テーブルを記憶するミスマッチ割合記憶手段30と、ミスマッチ割合テーブルに基づいて、音響モデル学習用の放送番組の番組音声を音声認識した認識スコアの上位から複数の認識仮説と字幕テキストから、認識仮説の誤り率を推定し、その誤り率によって発生する音声認識の誤りのリスクを最小化するリスク最小化学習によって、既存の音響モデルのパラメータを学習して新たな音響モデルを生成する音響モデル学習手段40と、を備える。【選択図】図1
請求項(抜粋):
字幕テキストを含んだ放送番組から音響モデルを学習して新たな音響モデルを生成する音響モデル生成装置であって、 書き起こしが準備された事前学習用の放送番組の番組音声を音声認識した認識仮説と、前記事前学習用の放送番組の字幕テキストとの対応パターンごとに、前記認識仮説と前記書き起こしとが一致しないミスマッチパターンの割合を対応付けたミスマッチ割合テーブルを記憶するミスマッチ割合記憶手段と、 音響モデル学習用の放送番組の番組音声を音声認識し、認識スコアの上位から予め定めた複数の認識仮説を生成する音声認識手段と、 前記ミスマッチ割合テーブルに基づいて、前記音声認識手段で音声認識された複数の認識仮説と、前記音響モデル学習用の放送番組の字幕テキストとの対応パターンから当該認識仮説の誤り率を推定する認識仮説誤り率推定手段と、 前記複数の認識仮説の誤り率の期待値である音声認識のリスクを最小化するリスク最小化学習によって、既存の音響モデルのパラメータを学習して新たな音響モデルを生成するリスク最小化学習手段と、 を備えることを特徴とする音響モデル生成装置。
IPC (1件):
G10L 15/06
FI (2件):
G10L15/06 300Y ,  G10L15/06 300D
引用特許:
出願人引用 (2件)
引用文献:
出願人引用 (2件)

前のページに戻る