マルチモーダル深畳込みニューラルネットワークを用いたオーディオビジュアル音声強調【JST・京大機械翻訳】

Hou Jen-Cheng; Wang Syu-Siang; Lai Ying-Hui; Tsao Yu; Chang Hsiu-Wen; Wang Hsin-Min

文献

J-GLOBAL ID：201802249035625635 整理番号：18A0707130

マルチモーダル深畳込みニューラルネットワークを用いたオーディオビジュアル音声強調【JST・京大機械翻訳】

Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0707130&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0707130&from=J-GLOBAL&jstjournalNo=W2473A") }}

著者 (6件)： , , , , ,
資料名：
巻： 2 号： 2 ページ： 117-128 発行年： 2018年
JST資料番号： W2473A ISSN： 2471-285X 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

音声強調(SE)は音声信号の雑音を低減することを目的としている。ほとんどのSE技術は,音声情報を扱うだけに焦点を合わせている。本論文では,異なるモダリティからのデータを利用する多モード学習と,SEにおける畳込みニューラルネットワーク(CNNs)の最近の成功により,音声と視覚ストリームを統合ネットワークモデルに組み込んだオーディオビジュアル深CNN(AVDCNN)SEモデルを提案した。また,出力層における音声と視覚信号を再構成するためのマルチタスク学習フレームワークを提案した。正確に言うと,提案したAVDCNNモデルは,音声と視覚データが個々のCNNを用いて最初に処理され,次に,出力層において強化された音声(一次タスク)と再構成画像(二次タスク)を生成するために結合ネットワークに融合されるオーディオ-ビジュアルエンコーダ-デコーダネットワークとして構造化される。このモデルはエンドツーエンドで訓練され,パラメータは逆伝搬を通して共同的に学習される。5つの機器基準を用いて強化音声を評価した。結果は,AVDCNNモデルが,オーディオのみのCNNベースSEモデルおよび2つの従来のSEアプローチと比較して,著しく優れた性能をもたらし,視覚情報をSEプロセスに統合することの有効性を確認した。さらに,AVDCNNモデルは既存のオーディオビジュアルSEモデルより優れており,SEにおける音声と視覚情報を効果的に結合する能力を確認した。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能 , 音声処理

, , ,

前のページに戻る