雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習

宇根昌和; 宇根昌和; 齋藤佑樹; 高道慎之介; 北村大地; 宮崎亮一; 猿渡洋

文献

J-GLOBAL ID：201702272223105923 整理番号：17A1696281

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1696281&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1696281&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (7件)： , , , , , ,
資料名：
巻： 2017 号： SLP-118 ページ： Vol.2017-SLP-118,No.1,1-6 (WEB ONLY) 発行年： 2017年10月06日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

高品質な統計的パラメトリック音声合成システムの構築には,スタジオ等の理想的な環境で収録された音声データの利用が不可欠であるため,現存する膨大な音声データのうち,音声合成の学習に利用可能なものは非常に限定される。本稿では,雑音環境下音声から高品質な音声合成を構築する方法を提案する。従来,そのような音声を学習データとして用いる場合,spectral subtraction等の雑音抑圧処理を施した後に,通常の音声合成の学習を行う。しかしながら,雑音スペクトルの生成分布をパラメトリックに定義する雑音抑圧法は処理後の音声を歪ませ,さらに,その歪みは音声合成の学習時に増幅されて合成音声品質を悪化させる。そこで本稿では,敵対的学習アルゴリズムにより学習される雑音生成モデルを用いた,音声合成の学習法を提案する。雑音生成モデルは,観測雑音スペクトルの統計量を持つように学習され,雑音スペクトルを確率的に生成する。テキストから音声スペクトルを生成する音声合成モデルは,生成雑音を加算した後のスペクトルが雑音環境下音声のスペクトルに一致するように学習される。提案法は,雑音スペクトルの生成分布を柔軟にモデル化でき,さらに,雑音加算過程を考慮して音声合成モデルを学習するため,従来法において生じる品質低下を低減できる。実験的評価では,いくつかの雑音抑圧強度とSN比において合成音声を作成し,提案法の知覚的音質が従来法を上回ることを示す。(著者抄録)

, , , , , , ,
, ,

音声処理 , CAI

引用文献 (28件)：

H. Zen, K. Tokuda, and A. Black, “Statistical parametric speech synthesis,” Speech Communication, vol. 51, no. 11, pp. 1039-1064, 2009.
S. Takamichi, K. Tomoki, and H. Saruwatari, “Sampling-based speech parameter generation using momentmatching network,” in Proc. INTERSPEECH, Stockholm, Sweden, Aug. 2017.
S. Takamichi, T. Toda, A. W. Black, G. Neubig, S. Sakti, and S. Nakamura, “Postfilters to modify the modulation spectrum for statistical parametric speech synthesis,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 24, no. 4, pp. 755-767, 2016.
Y. Saito, S. Takamichi, and H. Saruwatari, “Training algorithm to deceive anti-spoofing verification for DNN-based speech synthesis,” in Proc. ICASSP, Orleans, U.S.A., Mar. 2017.
H. Zen, A. Senior, and M. Schuster, “Statistical parametric speech synthesis using deep neural networks,” in Proc. ICASSP, Vancouver, Canada, May 2013.

, , , , ,

前のページに戻る