特許
J-GLOBAL ID:202103009262737991

学習装置、音声認識装置、学習方法、および、学習プログラム

発明者:
出願人/特許権者:
代理人 (1件): 特許業務法人酒井国際特許事務所
公報種別:公開公報
出願番号(国際出願番号):特願2020-028869
公開番号(公開出願番号):特開2021-135314
出願日: 2020年02月21日
公開日(公表日): 2021年09月13日
要約:
【課題】ノイズに対する頑健性の高い音声認識手段を提供する。【解決手段】学習装置10は、クリーンな音声データを第1の教師データとして用いて、音声認識モデルの事前学習を行う。その後、学習装置10は、事前学習後の音声認識モデルに、クリーンな音声データを入力した場合とノイズの入った音声データを入力した場合とで音声認識モデルの注意機構部145から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、ノイズの入った音声データに対し当該音声認識モデルの復号化部146から出力される情報と当該音声データに対する正解データとにどの程度の違いがあるかを示す第2の距離とを計算する。そして、学習装置10は、第1の距離と第2の距離との和を損失とし、当該損失が小さくなるように当該音声認識モデルの符号化部144および注意機構部145のパラメータの更新を行う。【選択図】図6
請求項(抜粋):
音声データと前記音声データの示す記号列を特定する情報の正解データとを対応付けたデータを第1の教師データとして用いて、音声データを、前記音声データの示す記号列を特定する情報に変換する際、前記音声データの中間特徴量を出力する符号化器と、前記中間特徴量を構成する各要素のうちどの要素に着目すればよいかを示す重みとその重みで前記中間特徴量の重み付け和を算出した値とを出力する注意機構とを備える音声認識モデルの学習を行う第1の学習部と、 前記音声データ、前記音声データにノイズが加算された音声データであるノイズあり音声データおよび前記音声データの示す記号列を特定する情報の正解データを対応付けた第2の教師データに基づき、前記第1の学習部による学習後の音声認識モデルに、音声データを入力した場合と前記ノイズあり音声データを入力した場合とで、当該音声認識モデルの注意機構から出力される重みの分布にどの程度の違いがあるかを示す第1の距離と、前記ノイズあり音声データに対する当該音声認識モデルの復号化器から出力される情報と前記音声データに対する正解データとの間にどの程度の違いがあるかを示す第2の距離とを計算する距離計算部と、 前記第2の教師データを用いて、前記第1の学習部による学習後の音声認識モデルの学習を行う際、前記第1の距離と前記第2の距離との和を損失とし、前記損失が小さくなるように当該音声認識モデルの符号化器および注意機構のパラメータの更新を行う第2の学習部と、 を備えることを特徴とする学習装置。
IPC (4件):
G10L 15/06 ,  G10L 15/16 ,  G10L 15/20 ,  G10L 15/065
FI (4件):
G10L15/06 500L ,  G10L15/16 ,  G10L15/20 200Z ,  G10L15/065 A
引用特許:
出願人引用 (1件) 審査官引用 (1件)
引用文献:
出願人引用 (3件)
  • Learning Noise-invariant Representations for Robust Speech Recognition
  • Knowledge Distillation with Category-aware Attention and Discriminant Logit Losses
  • 二重相続進化戦略によるEnd-to-End音声認識システムの最適化
審査官引用 (3件)
  • Learning Noise-invariant Representations for Robust Speech Recognition
  • Knowledge Distillation with Category-aware Attention and Discriminant Logit Losses
  • 二重相続進化戦略によるEnd-to-End音声認識システムの最適化

前のページに戻る