プレプリント
J-GLOBAL ID:202202206044157928   整理番号:22P0108931

変圧器変換器:変圧器エンコーダとRNN-T損失を持つストリーム可能な音声認識モデル【JST・京大機械翻訳】

Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss
著者 (7件):
資料名:
発行年: 2020年02月06日  プレプリントサーバーでの情報更新日: 2020年02月14日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,ストリーミング音声認識システムにおいて使用できる変換符号器を用いたエンドツーエンド音声認識モデルを提案した。自己適応に基づく変圧器計算ブロックを用いて,オーディオとラベルシーケンスを独立に符号化した。音響フレーム位置とラベル履歴のあらゆる組合せに対するラベル空間上の確率分布を計算するために,オーディオとラベル符号器の両方からの活性化をフィードフォワード層と組み合わせた。これは,リカレントニューラルネットワーク変換器(RNN-T)モデルと同様であり,それは変換器符号器の代わりに情報符号化のためにRNNを使用する。モデルは,ストリーミング復号化によく適合したRNN-T損失で訓練された。LibriSpeechデータセットに関する結果を示し,変換層における自己注意に対する左コンテキストの制限は,精度の僅かな劣化だけで,ストリーミングに対して計算的に扱いやすい復号化を行うことを示した。また,著者らのモデルの完全な注意バージョンは,LibriSpeechベンチマークに関する最先端技術精度を,現すことを示した。また,著者らの結果は,限られた数の将来のフレームを通すことによって,著者らのモデルの十分な注意と限られた注意バージョンの間のギャップを埋めることができることを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  音声処理 

前のページに戻る