プレプリント
J-GLOBAL ID:202202220637610222   整理番号:22P0311429

次元感情認識における視聴覚融合のための結合相互注意モデル【JST機械翻訳】

A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition
著者 (11件):
資料名:
発行年: 2022年03月28日  プレプリントサーバーでの情報更新日: 2024年07月06日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
マルチモーダル感情認識は,複数のモダリティ(例えば,オーディオ,ビジュアル,生体信号など)上で多様な相補的関係を利用し,ノイズのあるモダリティに対していくつかのロバスト性を提供することができるため,最近多くの注目を集めている。オーディオビジュアル(A-V)融合のための最先端の手法の多くは,A-Vモダリティの相補的性質を効果的に活用しないリカレントネットワークまたは従来型注意メカニズムに依存している。本論文では,ビデオから抽出された顔および音声モダリティの融合に基づく次元感情認識に焦点を合わせた。特に,価数と覚醒の連続値の正確な予測を可能にする,A-Vモダリティにまたがる顕著な特徴を抽出するために相補的関係に依存する結合交差注意モデルを提案した。提案した融合モデルは,モード間関係を効率的に活用し,一方,特徴間の不均一性を低減した。特に,結合特徴表現と個別モダリティ間の相関に基づいて相互注意重みを計算する。組合せA-V特徴表現を相互注意モジュールに展開することにより,筆者らの融合モジュールの性能はバニラ相互注意モジュールよりも顕著に改善した。AffWild2データセットからの検証セットビデオに関する実験結果は,提案したA-V融合モデルが,最先端のアプローチを凌ぐことができる費用対効果の高い解を提供することを示した。このコードはGitHub:https://github.com/praveena2j/JointCrossAttentional AV Fusion上で利用可能である。【JST機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  図形・画像処理一般 

前のページに戻る