変圧器変換器:変圧器エンコーダとRNN-T損失を持つストリーム可能な音声認識モデル【JST・京大機械翻訳】

Zhang Qian; Lu Han; Sak Hasim; Tripathi Anshuman; McDermott Erik; Koo Stephen; Kumar Shankar

プレプリント

J-GLOBAL ID：202202206044157928 整理番号：22P0108931

変圧器変換器:変圧器エンコーダとRNN-T損失を持つストリーム可能な音声認識モデル【JST・京大機械翻訳】

Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2020年02月06日プレプリントサーバーでの情報更新日： 2020年02月14日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,ストリーミング音声認識システムにおいて使用できる変換符号器を用いたエンドツーエンド音声認識モデルを提案した。自己適応に基づく変圧器計算ブロックを用いて,オーディオとラベルシーケンスを独立に符号化した。音響フレーム位置とラベル履歴のあらゆる組合せに対するラベル空間上の確率分布を計算するために,オーディオとラベル符号器の両方からの活性化をフィードフォワード層と組み合わせた。これは,リカレントニューラルネットワーク変換器(RNN-T)モデルと同様であり,それは変換器符号器の代わりに情報符号化のためにRNNを使用する。モデルは,ストリーミング復号化によく適合したRNN-T損失で訓練された。LibriSpeechデータセットに関する結果を示し,変換層における自己注意に対する左コンテキストの制限は,精度の僅かな劣化だけで,ストリーミングに対して計算的に扱いやすい復号化を行うことを示した。また,著者らのモデルの完全な注意バージョンは,LibriSpeechベンチマークに関する最先端技術精度を,現すことを示した。また,著者らの結果は,限られた数の将来のフレームを通すことによって,著者らのモデルの十分な注意と限られた注意バージョンの間のギャップを埋めることができることを示した。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識 , 音声処理

, , , , , , ,

前のページに戻る