ニューラルDPS:雑音制御可能波形発生のためのマルチバンド励振によるニューラル決定論的プラス確率モデル【JST・京大機械翻訳】

Wang Tao; Fu Ruibo; Yi Jiangyan; Tao Jianhua; Wen Zhengqi

プレプリント

J-GLOBAL ID：202202200604194621 整理番号：22P0299328

ニューラルDPS:雑音制御可能波形発生のためのマルチバンド励振によるニューラル決定論的プラス確率モデル【JST・京大機械翻訳】

NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband Excitation for Noise-Controllable Waveform Generation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年03月05日プレプリントサーバーでの情報更新日： 2022年03月05日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

伝統的ボコーダは,高い合成効率,強い解釈可能性,および音声編集性の利点を持ち,一方,ニューラルボコーダは,高い合成品質の利点を持っている。従来の決定論的プラス確率モデルに触発された2つのボコーダの利点を組み合わせるために,本論文は,高い音声品質を保持して,高い合成効率とノイズ制御性を獲得することができる,ニューラルDPSという新しいニューラルボコーダを提案する。最初に,このフレームワークは4つのモジュールを含む:決定論的ソースモジュール,確率的ソースモジュール,ニューラルV/UV決定モジュールおよびニューラルフィルタモジュール。ボコーダによって要求される入力は,ちょうどスペクトルパラメータであり,それはF_0のような付加的パラメータを推定することによって引き起こされる誤差を避ける。第2に,異なる周波数帯が決定論的成分と確率的成分の異なる比率を持つかもしれない問題を解決するために,マルチバンド励起戦略を用いて,より正確な励起信号を生成して,神経フィルタの負荷を減らした。第三に,音声の雑音成分を制御する方法を提案した。このようにして,音声の信号対雑音比(SNR)を容易に調整することができた。客観的および主観的実験結果は,提案したニューラルDPSボコーダが,WaveNetと類似の性能を得ることができ,波形をWaveNet vocoderよりも少なくとも280倍高速に生成することを示した。また,単一CPUコアでのWaveGAN合成効率よりも28%高速であった。また,この方法が予測音声中の雑音成分を効果的に制御し,音声のSNRを調整することができることを実験により証明した。生成された音声の例をhttps://hairuo55.github.io/NeuralDPSで見つけることができる。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

音声処理

, , , , ,

前のページに戻る