低リソース言語における移動可能な音声感情認識と埋込みのための連続計量学習【JST・京大機械翻訳】

Das Sneha; Lund Nicklas Leander; Lonfeldt Nicole Nadine; Pagsberg Anne Katrine; Clemmensen Line H.

プレプリント

J-GLOBAL ID：202202206688013579 整理番号：22P0311517

低リソース言語における移動可能な音声感情認識と埋込みのための連続計量学習【JST・京大機械翻訳】

Continuous Metric Learning For Transferable Speech Emotion Recognition and Embedding Across Low-resource Languages

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年03月28日プレプリントサーバーでの情報更新日： 2022年03月28日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

音声感情認識(SER)は,音声信号から個人の感情状態を推論する技術に言及する。SERは,それらの広い応用性のために,ガーナの興味を続けている。ドメインは主に信号処理,機械学習,および深層学習に見出されるが,言語を一般化するのは課題として残っている。しかし,一般化可能かつ移転可能なモデルを開発することは,最も一般的に話されたものを超えた言語に対するデータおよびラベルに関する十分な資源の欠如により重要である。言語上の性能を改善するために,著者らは,活性化または原子価のいずれかに基づく連続メトリック損失を用いて,セミスーパービジョンを有する雑音除去オートエンコーダを提案した。本研究の新規性は,著者らの知識の最良の話題に関する最初の提案である連続メトリック学習の提案にある。さらに,転送データセットにおける活性化と原子価ラベルの欠如に対処するために,著者らは,感情の次元モデルに対応する活性化と原子価レベルを有する信号サンプルを注釈付けし,次に,転送データセット上の埋込みの品質を評価するために使用した。提案した半教師つきモデルは,従来の雑音除去自動符号化器であるベースライン教師なし法よりも,感情分類精度および次元変数に関する相関に関して,一貫して性能が優れていることを示した。参照に関する分類精度のさらなる評価,BERTベースの音声表現モデルは,提案方法がはるかに低い複雑性で特定の感情クラスを分類する際に参照法に匹敵することを示した。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

パターン認識

, , , , ,

前のページに戻る