プレプリント
J-GLOBAL ID:202202214653530239   整理番号:22P0279263

予歪音響および言語モデルによる非自己回帰エンドツーエンド音声認識の改善【JST・京大機械翻訳】

Improving non-autoregressive end-to-end speech recognition with pre-trained acoustic and language models
著者 (6件):
資料名:
発行年: 2022年01月25日  プレプリントサーバーでの情報更新日: 2022年01月26日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
変換器はエンドツーエンド(E2E)自動音声認識(ASR)において有望な結果を達成したが,それらの自己回帰(AR)構造は復号化プロセスを高速化するためのボトルネックになる。実世界展開のために,ASRシステムは,高速推論を達成しながら,高精度であると望まれる。非自己回帰(NAR)モデルは,それらの速い推論速度のため,一般的な代替案になったが,それらは,認識精度においてARシステムの背後にある。2つの要求を満たすために,本論文では,事前訓練音響と言語モデル:wav2vec2.0とBERTの両方を利用するNAR CTC/注意モデルを提案した。事前訓練モデルから得られた音声とテキスト表現の間のモダリティギャップを橋渡しするために,ロググラフィック言語に対してより適した新しいモダリティ変換機構を設計した。推論の間,著者らは,目標長さを生成するためにCTCブランチを採用して,それは並列でトークンを予測するBERTを可能にした。また,復号化速度を高速に保ちながら,認識精度を改善するために,キャッシュベースのCTC/注意結合復号化法を設計した。実験結果は,提案したNARモデルが,著者らの強いwav2vec2.0CTC基準(AISHELL-1に関して15.1%の相対的CER減少)を,大いに上回ることを示した。提案したNARモデルは,AISHELL-1ベンチマーク上で以前のNARシステムを著しく上回り,英語タスクの可能性を示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 

前のページに戻る