音声強調のための条件付き拡散確率モデル【JST・京大機械翻訳】

Lu Yen-Ju; Wang Zhong-Qiu; Watanabe Shinji; Richard Alexander; Yu Cheng; Tsao Yu

プレプリント

J-GLOBAL ID：202202214964238566 整理番号：22P0287868

音声強調のための条件付き拡散確率モデル【JST・京大機械翻訳】

Conditional Diffusion Probabilistic Model for Speech Enhancement

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年02月10日プレプリントサーバーでの情報更新日： 2022年02月10日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

音声強調は,多くのユーザ指向オーディオアプリケーションの重要な構成要素であるが,まだ,現在のシステムは,歪および不自然な出力に悩まされている。生成モデルは音声合成において強い可能性を示したが,音声強調においてまだ遅れている。本研究は拡散確率モデルの最近の進歩を活用し,拡散と逆プロセスに観測された雑音のある音声信号の特性を組み込んだ新しい音声強調アルゴリズムを提案した。より具体的には,条件付き拡散確率モデルと呼ばれる拡散確率モデルの一般化定式化を提案し,その逆プロセスにおいて,推定音声信号における非Gauss実雑音に適応できる。著者らの実験では,代表的な生成モデルと比較して,提案した方法の優れた性能を実証し,訓練中の雑音特性のない他のデータセットに対する著者らのモデルの一般化能力を調べた。【JST・京大機械翻訳】

, , , , , , , ,
, 【Automatic Indexing@JST】

音声処理

, ,

前のページに戻る