オーディオビジュアル音声認識のための文脈的に融合したオーディオビジュアル表現の学習【JST・京大機械翻訳】

Zhang Zi-Qiang; Zhang Jie; Zhang Jian-Shu; Wu Ming-Hui; Fang Xin; Dai Li-Rong

プレプリント

J-GLOBAL ID：202202220410832172 整理番号：22P0290040

オーディオビジュアル音声認識のための文脈的に融合したオーディオビジュアル表現の学習【JST・京大機械翻訳】

Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年02月15日プレプリントサーバーでの情報更新日： 2022年07月10日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

オーディオと視覚モダリティのための自己監督学習の進歩により,ロバストなオーディオビジュアル音声表現を学習できるようになった。これは,マルチモーダル入力が原理的により多くの果実情報を含むので,オーディオビジュアル音声認識(AVSR)性能の改善に有益である。本論文では,オーディオモダリティに対する既存の自己教師付き表現学習法に基づき,オーディオビジュアル表現学習アプローチを提案した。提案方法は,変圧器ベースの融合モジュールと柔軟なマスキング戦略を用いて,オーディオビジュアルモダリティと長期コンテキスト依存性の相補性の両方を調査する。予訓練の後,モデルはAVSRによって要求される融合表現を抽出することができる。普遍性の損失なしに,単一モードタスク,例えば,融合モジュールにおける1つのモダリティを単純にマスキングすることにより,オーディオ/ビジュアル音声認識に適用できる。提案した事前訓練モデルを,1つまたは2つのモダリティを用いて音声認識と読唇タスクに関して評価し,その優位性を明らかにした。【JST・京大機械翻訳】

, , , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識 , 音声処理

, , , , ,

前のページに戻る