特許
J-GLOBAL ID:201803009702523411
音声転写用のシステム及び方法
発明者:
,
,
,
,
,
,
,
,
,
,
出願人/特許権者:
代理人 (8件):
奥山 尚一
, 有原 幸一
, 松島 鉄男
, 中村 綾子
, 森本 聡二
, 田中 祐
, 徳本 浩一
, 水島 亜希子
公報種別:公表公報
出願番号(国際出願番号):特願2017-514295
公開番号(公開出願番号):特表2017-538137
出願日: 2015年12月14日
公開日(公表日): 2017年12月21日
要約:
エンドツーエンド深層学習を使用して開発された最先端の音声認識システムの実施形態が提示される。実施形態において、モデルアーキテクチャは、苦労して設計された処理パイプラインに依存する従来の音声システムよりもずっと簡単である。これらの従来のシステムは、ノイズのある環境で使用される場合、性能が低下する傾向もある。これに対し、本システムの実施形態は、背景ノイズ、反響、又は話者変更をモデル化するための手作業で設計される要素を必要とせず、代わりにそのような効果に対して頑健性(ロバスト性)を有する機能(関数)を直接学習する。音素辞書、ひいては「音素」の概念さえ必要とされない。実施形態は、マルチGPUを使用することができる良好に最適化された再帰型ニューラルネットワーク(RNN)トレーニングシステムと、トレーニングのための大量の多様なデータを効率的に取得することを可能にする新規のデータ合成技術のセットと、を含む。このシステムの実施形態は、広範に使用されている最先端の商用音声システムに比べ、困難なノイズのある環境をより良好に処理することができる。【選択図】図2
請求項(抜粋):
転写モデルをトレーニングするための、コンピュータによって実施される方法であって、
発話のセットにおける各発話に対し、
スペクトログラムフレームのセットを含む発話を、該スペクトログラムフレームのセットからの各スペクトログラムフレームを評価する前記転写モデルの第一層に、一つ又は複数のスペクトログラムフレームのコンテキストとともに入力するステップと、
前記転写モデルから前記発話に対する予測文字又は予測文字確率を出力するステップと、
損失を計算して前記発話に対する予測誤差を測定するステップと、
を含み、前記方法は、さらに、
グランドトゥルース文字が与えられた場合に、前記転写モデルの予測出力の勾配を評価するステップと、
バックプロパゲーションを使用して前記転写モデルを更新するステップと、
を含む、方法。
IPC (1件):
FI (1件):
引用特許:
引用文献:
前のページに戻る