特許
J-GLOBAL ID:202203017122416486

音声認識モデル学習装置、音声認識装置、およびプログラム

発明者:
出願人/特許権者:
代理人 (4件): 及川 周 ,  高田 尚幸 ,  松本 裕幸 ,  木下 郁一郎
公報種別:公開公報
出願番号(国際出願番号):特願2020-141537
公開番号(公開出願番号):特開2022-037413
出願日: 2020年08月25日
公開日(公表日): 2022年03月09日
要約:
【課題】遠方発話等の音声をも高い精度で認識することができるようにする音声認識モデル学習装置および音声認識装置を提供する。 【解決手段】音声認識処理部は、音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備える。学習処理部は、音声認識モデルを学習するための学習用音声と、学習用音声に対応する正解の認識結果情報である正解情報とを供給する。音声加工処理部は、学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、音声認識処理部の入力側に供給する。学習処理部は、ロス算出部が算出するロスに基づいて、音声認識モデルが内部パラメーターを調整するよう制御する。 【選択図】図1
請求項(抜粋):
入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、 前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、 前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、 前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、 を備え、 前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する、 音声認識モデル学習装置。
IPC (1件):
G10L 15/06
FI (1件):
G10L15/06 300C
引用特許:
審査官引用 (6件)
全件表示

前のページに戻る