自己注意機構とマルチスケール融合フレームワークを用いたマルチモーダル音声感情認識【JST・京大機械翻訳】

Liu Yang; Sun Haoqin; Guan Wenbo; Xia Yuqi; Zhao Zhen

文献

J-GLOBAL ID：202202282896006363 整理番号：22A1091000

自己注意機構とマルチスケール融合フレームワークを用いたマルチモーダル音声感情認識【JST・京大機械翻訳】

Multi-modal speech emotion recognition using self-attention mechanism and multi-scale fusion framework

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1091000&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1091000&from=J-GLOBAL&jstjournalNo=W1590A") }}

著者 (5件)： , , , ,
資料名：
巻： 139 ページ： 1-9 発行年： 2022年
JST資料番号： W1590A ISSN： 0167-6393 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

音声からの感情を正確に認識することは,音声と感情の変動性のため,必要だが挑戦的なタスクである。本論文では,音声とテキスト情報を用いてマルチモーダルSERのために,自己注意機構とマルチスケール融合フレームワークを組み合わせた新しい方法を提案した。音声からコンテキスト感受性依存性を学習するために,自己注意双方向文脈LSTM(bc-LSTM)を提案した。特に,BLSTM層を適用して,長期依存性と発話レベル文脈情報を学習し,マルチヘッド自己注意層により,このモデルが感情に最も関連する特徴に焦点を当てた。静的および動的チャネルを利用する自己注意マルチチャネルCNN(MCNN)を,テキストから一般的および主題的特徴を学習するために適用した。最後に,特徴レベル融合と決定レベル融合を含むマルチスケール融合戦略を適用して,全体的性能を改善した。ベンチマークデータセットIEMOCAPに関する実験結果は,著者らの方法が,重みづけ精度(WA)と非加重精度(UA)に関して,最先端の戦略に関して,それぞれ1.48%と3.00%の絶対改善を得ることを実証した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (3件)： , ,

パターン認識 , 音声処理 , 情報加工一般

, , , , ,

前のページに戻る