音声転写用のシステム及び方法

発明者： , , , , , , , , , ,
出願人/特許権者：
代理人 (8件)：奥山尚一 , 有原幸一 , 松島鉄男 , 中村綾子 , 森本聡二 , 田中祐 , 徳本浩一 , 水島亜希子
公報種別：公表公報
出願番号（国際出願番号）：特願2017-514295
公開番号（公開出願番号）：特表2017-538137
出願日： 2015年12月14日
公開日（公表日）： 2017年12月21日
要約：

エンドツーエンド深層学習を使用して開発された最先端の音声認識システムの実施形態が提示される。実施形態において、モデルアーキテクチャは、苦労して設計された処理パイプラインに依存する従来の音声システムよりもずっと簡単である。これらの従来のシステムは、ノイズのある環境で使用される場合、性能が低下する傾向もある。これに対し、本システムの実施形態は、背景ノイズ、反響、又は話者変更をモデル化するための手作業で設計される要素を必要とせず、代わりにそのような効果に対して頑健性(ロバスト性)を有する機能(関数)を直接学習する。音素辞書、ひいては「音素」の概念さえ必要とされない。実施形態は、マルチGPUを使用することができる良好に最適化された再帰型ニューラルネットワーク(RNN)トレーニングシステムと、トレーニングのための大量の多様なデータを効率的に取得することを可能にする新規のデータ合成技術のセットと、を含む。このシステムの実施形態は、広範に使用されている最先端の商用音声システムに比べ、困難なノイズのある環境をより良好に処理することができる。【選択図】図2

請求項（抜粋）：

転写モデルをトレーニングするための、コンピュータによって実施される方法であって、発話のセットにおける各発話に対し、スペクトログラムフレームのセットを含む発話を、該スペクトログラムフレームのセットからの各スペクトログラムフレームを評価する前記転写モデルの第一層に、一つ又は複数のスペクトログラムフレームのコンテキストとともに入力するステップと、前記転写モデルから前記発話に対する予測文字又は予測文字確率を出力するステップと、損失を計算して前記発話に対する予測誤差を測定するステップと、を含み、前記方法は、さらに、グランドトゥルース文字が与えられた場合に、前記転写モデルの予測出力の勾配を評価するステップと、バックプロパゲーションを使用して前記転写モデルを更新するステップと、を含む、方法。

IPC (1件)：

G10L 15/16

FI (1件)：

G10L15/16

引用特許：

審査官引用 (5件)

パルスニューロンモデルのためのバックプロパゲーション学習法
公報種別：公開公報出願番号：特願2008-298487 出願人：国立大学法人名古屋工業大学
パターン識別装置及びその学習処理手順
公報種別：公開公報出願番号：特願平11-262894 出願人：中川徹, 北川一, ダイセル化学工業株式会社
特開平4-281500

全件表示

引用文献：

審査官引用 (3件)

Towards End-to End Speech Recognition with Recurrent Neural Networks
時間遅れ神経回路網(TDNN)による音韻スポッティングのための学習法とその効果
ロンバード発声音声コーパスの設計と評価

前のページに戻る