歌声合成におけるニューラルボコーダの比較検討

和田蒼汰; 法野行哉; 高木信二; 橋本佳; 大浦圭一郎; 南角吉彦; 徳田恵一

文献

J-GLOBAL ID：202002223066235280 整理番号：20A0516341

歌声合成におけるニューラルボコーダの比較検討

A comparison of neural vocoders in singing voice synthesis

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A0516341&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A0516341&from=J-GLOBAL&jstjournalNo=S0532B") }}

著者 (7件)： , , , , , ,
資料名：
巻： 119 号： 321(SP2019 34-43)(Web) ページ： 85-90 (WEB ONLY) 発行年： 2019年11月29日
JST資料番号： S0532B ISSN： 0913-5685 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本稿では,5種類のニューラルネットワークに基づくボコーダ(ニューラルボコーダ)を歌声合成に用いた場合について,その性能の比較検討を行う.近年,ニューラルボコーダとしてWaveNet vocoderが提案された.WaveNet vocoderは音声波形を高精度にモデル化することができ,自然な音声を生成できるが,自己回帰構造を持つことから実時間で合成できないという問題があった.この問題に対し,大きく2つのアプローチが提案されている.1つ目は,自己回帰モデルのモデル構造を小さくし,1度の順伝播にかかる時間を減らすことによって高速な合成を可能とする手法である.2つ目は,Flowを用いることにより複数のサンプルを1度に合成する手法である.これらの手法に関する性能の比較は発話文を用いて行われており,歌声を用いた場合については未だ行われていなかった.そこで本稿では,5種類のニューラルボコーダを歌声合成に用いる場合について性能を比較する.主観評価実験と客観評価実験の結果より,自然性を重視するのであればWaveRNNが,ピッチやビブラートの再現性を重視するのであればWaveNetが適切なニューラルボコーダであることを示した.(著者抄録)

, , , , , , , , , , , ,
, , , , ,

音声処理 , 楽器音響

引用文献 (31件)：

前のページに戻る