特許
J-GLOBAL ID:201403029098349484

音声認識装置、誤り修正モデル学習方法、及びプログラム

発明者:
出願人/特許権者:
代理人 (2件): 志賀 正武 ,  高橋 詔男
公報種別:公開公報
出願番号(国際出願番号):特願2012-270107
公開番号(公開出願番号):特開2014-115499
出願日: 2012年12月11日
公開日(公表日): 2014年06月26日
要約:
【課題】音声の書き起こしテキストの作成にかかるコストを軽減しながら誤り修正モデルを生成する。【解決手段】適応化言語モデル使用音声認識部18は、字幕データにより適応化した言語モデルを用いて放送音声データを音声認識し、適応化音響モデル使用音声認識部21は、得られた音声認識結果により適応化した音響モデルと適応化した言語モデルとを用いて放送音声データを音声認識する。部分正解単語列抽出部23は、この音声認識結果を構成する各単語に信頼度計算部22が計算した認識結果の信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する。誤り傾向学習部26は、部分正解単語列において正解のラベルが付与された単語を正解とみなし、放送音声認識部24が言語モデル及び音響モデルを用いて放送音声データを音声認識した結果に期待される認識誤り数を算出し、この期待される認識誤り数に基づいて誤り修正モデルを学習する。【選択図】図5
請求項(抜粋):
放送音声データに付随した字幕データを用いて言語モデルを適応化し、適応化言語モデルを生成する言語モデル適応化部と、 前記適応化言語モデルを用いて前記放送音声データを音声認識する適応化言語モデル使用音声認識部と、 前記適応化言語モデル使用音声認識部による音声認識結果を用いて音響モデルを適応化し、適応化音響モデルを生成する音響モデル適応化部と、 前記適応化言語モデル及び前記適応化音響モデルを用いて前記放送音声データを音声認識する適応化音響モデル使用音声認識部と、 前記適応化音響モデル使用音声認識部による音声認識結果を構成する各単語について認識結果の信頼度を計算する信頼度計算部と、 前記適応化音響モデル使用音声認識部による前記音声認識結果を構成する各単語に前記信頼度計算部により計算された前記信頼度に応じて正解または誤りを示すラベルを付与し、部分正解単語列を生成する部分正解単語列抽出部と、 適応化していない言語モデル及び音響モデルを用いて前記放送音声データを音声認識する放送音声認識部と、 前記部分正解単語列において正解のラベルが付与された単語を正解とみなして前記放送音声認識部による前記音声認識結果に期待される認識誤り数を算出し、算出した前記期待される認識誤り数に基づいて、言語的な特徴により音声認識のスコアを修正する式である誤り修正モデルを学習する誤り傾向学習部と、 を備えることを特徴とする音声認識装置。
IPC (2件):
G10L 15/22 ,  G10L 15/06
FI (2件):
G10L15/22 470F ,  G10L15/06 300Z
引用特許:
出願人引用 (3件) 審査官引用 (3件)
引用文献:
出願人引用 (2件) 審査官引用 (2件)

前のページに戻る