マルチモーダル変圧器による表現の検出【JST・京大機械翻訳】

Parthasarathy Srinivas; Sundaram Shiva

プレプリント

J-GLOBAL ID：202202203965629362 整理番号：22P0213860

マルチモーダル変圧器による表現の検出【JST・京大機械翻訳】

Detecting expressions with multimodal transformers

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2020年11月30日プレプリントサーバーでの情報更新日： 2020年11月30日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

人対人参加を理解するための機械学習アルゴリズムの開発は,アマゾンAlexaのような通信機器に対する自然ユーザ経験をもたらす。音声活動や注視のような他の手がかりの中で,音声と表情の緊張を含む人のオーディオビジュアル表現は,対話における関係者間の関与の陰的信号として機能する。本研究では,ユーザの表現のオーディオビジュアル検出のための深層学習アルゴリズムを検討した。最初に,最新技術の現状と比較して,競合結果を示す再帰層を有するオーディオビジュアルベースラインモデルを実行した。次に,表現トラッキングのためにオーディオビジュアル特徴をより良く統合する符号器層を有する変圧器アーキテクチャを提案した。Aff-Wild2データベース上の性能は,提案した方法が覚醒と原子価記述子に対して約2%の絶対利得を持つ再帰層を有するベースラインアーキテクチャよりも優れた性能を持つことを示した。さらに,マルチモーダルアーキテクチャは,最大3.6%の利得で単一モダリティで訓練されたモデルに対して顕著な改善を示した。アブレーション研究は,Aff-Wild2データベース上の発現検出のための視覚モダリティの重要性を示した。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

音声処理 , パターン認識

, ,

前のページに戻る