プレプリント
J-GLOBAL ID:202202220410832172   整理番号:22P0290040

オーディオビジュアル音声認識のための文脈的に融合したオーディオビジュアル表現の学習【JST・京大機械翻訳】

Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition
著者 (6件):
資料名:
発行年: 2022年02月15日  プレプリントサーバーでの情報更新日: 2022年07月10日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
オーディオと視覚モダリティのための自己監督学習の進歩により,ロバストなオーディオビジュアル音声表現を学習できるようになった。これは,マルチモーダル入力が原理的により多くの果実情報を含むので,オーディオビジュアル音声認識(AVSR)性能の改善に有益である。本論文では,オーディオモダリティに対する既存の自己教師付き表現学習法に基づき,オーディオビジュアル表現学習アプローチを提案した。提案方法は,変圧器ベースの融合モジュールと柔軟なマスキング戦略を用いて,オーディオビジュアルモダリティと長期コンテキスト依存性の相補性の両方を調査する。予訓練の後,モデルはAVSRによって要求される融合表現を抽出することができる。普遍性の損失なしに,単一モードタスク,例えば,融合モジュールにおける1つのモダリティを単純にマスキングすることにより,オーディオ/ビジュアル音声認識に適用できる。提案した事前訓練モデルを,1つまたは2つのモダリティを用いて音声認識と読唇タスクに関して評価し,その優位性を明らかにした。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  音声処理 

前のページに戻る