次元感情認識における視聴覚融合のための結合相互注意モデル【JST機械翻訳】

Praveen R. Gnana; de Melo Wheidima Carneiro; Ullah Nasib; Aslam Haseeb; Zeeshan Osama; Denorme Theo; Pedersoli Marco; Koerich Alessandro; Bacon Simon; Cardinal Patrick; Granger Eric

プレプリント

J-GLOBAL ID：202202220637610222 整理番号：22P0311429

次元感情認識における視聴覚融合のための結合相互注意モデル【JST機械翻訳】

A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (11件)： , , , , , , , , , ,
資料名：
発行年： 2022年03月28日プレプリントサーバーでの情報更新日： 2024年07月06日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

マルチモーダル感情認識は,複数のモダリティ(例えば,オーディオ,ビジュアル,生体信号など)上で多様な相補的関係を利用し,ノイズのあるモダリティに対していくつかのロバスト性を提供することができるため,最近多くの注目を集めている。オーディオビジュアル(A-V)融合のための最先端の手法の多くは,A-Vモダリティの相補的性質を効果的に活用しないリカレントネットワークまたは従来型注意メカニズムに依存している。本論文では,ビデオから抽出された顔および音声モダリティの融合に基づく次元感情認識に焦点を合わせた。特に,価数と覚醒の連続値の正確な予測を可能にする,A-Vモダリティにまたがる顕著な特徴を抽出するために相補的関係に依存する結合交差注意モデルを提案した。提案した融合モデルは,モード間関係を効率的に活用し,一方,特徴間の不均一性を低減した。特に,結合特徴表現と個別モダリティ間の相関に基づいて相互注意重みを計算する。組合せA-V特徴表現を相互注意モジュールに展開することにより,筆者らの融合モジュールの性能はバニラ相互注意モジュールよりも顕著に改善した。AffWild2データセットからの検証セットビデオに関する実験結果は,提案したA-V融合モデルが,最先端のアプローチを凌ぐことができる費用対効果の高い解を提供することを示した。このコードはGitHub:https://github.com/praveena2j/JointCrossAttentional AV Fusion上で利用可能である。【JST機械翻訳】

, , , , , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, , , , ,

前のページに戻る