複数話者WaveNetボコーダに関する調査

林知樹; 小林和弘; 玉森聡; 武田一哉; 戸田智基

文献

J-GLOBAL ID：201802213058814283 整理番号：18A0357440

複数話者WaveNetボコーダに関する調査

An investigation of multi-speaker WaveNet vocoder

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0357440&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0357440&from=J-GLOBAL&jstjournalNo=S0532B") }}

著者 (5件)： , , , ,
資料名：
巻： 117 号： 393(SP2017 66-84) ページ： 81-86 発行年： 2018年01月13日
JST資料番号： S0532B ISSN： 0913-5685 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本稿では,複数話者WaveNetボコーダに関する調査を行う。我々の先行研究において,単一の話者の発話を用いて学習された話者依存WaveNetボコーダは,位相情報などの時系列構造をモデル化することを可能とし,従来の高品質なSTRAIGHTボコーダを上回る品質を示すことが明らかとなった。しかしながら,話者依存WaveNetボコーダはその高い話者依存性のために,複数の話者の音声など様々な特徴を持つ音声を合成できるとは限らない。柔軟かつ高い自然性を持つ音声の合成を可能とするWaveNetボコーダの実現に向け,補助特徴量の改善,ノイズシェーピングによる聴覚マスキングの導入,及び,複数話者データを用いた学習をWaveNetボコーダに適用し,その有効性を調査する。さらに,学習データ量が合成品質に与える影響の調査も行う。我々は実験的に下記の3点を明らかにする。1)複数話者WaveNetボコーダは,既知話者に対しては話者依存WaveNetボコーダと同等の自然性を示すが,未知話者に対しては自然性が低下する。2)複数話者WaveNetボコーダは,既知話者だけでなく,未知話者に対しても従来の高品質ボコーダSTRAIGHTの自然性を大きく上回る。3)単一話者・複数話者に関わらず,客観評価値は学習データ量に比例して改善する。(著者抄録)

, , , , , , , , , , ,
,

音声処理

引用文献 (21件)：

E. Moulines and F. Charpentier, “Pitch-synchronous wave-form processing techniques for text-to-speech synthesis using diphones,” Speech communication, vol.9, no.5-6, pp.453-467, 1990.
A.J. Hunt and A.W. Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” IEEE International Conference on Acoustics, Speech and Signal Processing, vol.1 IEEE, pp.373-376 1996.
J.L. Flanagan and R. Golden, “Phase vocoder,” Bell Labs Technical Journal, vol.45, no.9, pp.1493-1509, 1966.
B. Gold and C. Rader, “The channel vocoder,” IEEE Transactions on Audio and Electroacoustics, vol.15, no.4, pp.148-161, 1967.
A.V. Oppenheim, “Speech analysis-synthesis system based on homomorphic filtering,” The Journal of the Acoustical Society of America, vol.45, no.2, pp.458-465, 1969.

, , ,

前のページに戻る