DNN音声合成のためのProsodic Word Embeddingの検討

井島勇祐; 北条伸克; 増村亮; 浅見太一

文献

J-GLOBAL ID：201702272615699069 整理番号：17A0540427

DNN音声合成のためのProsodic Word Embeddingの検討

Prosodic Word Embeddings for DNN-based Speech Synthesis

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A0540427&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A0540427&from=J-GLOBAL&jstjournalNo=S0532B") }}

著者 (4件)： , , ,
資料名：
巻： 116 号： 477(SP2016 77-141) ページ： 153-158 発行年： 2017年02月22日
JST資料番号： S0532B ISSN： 0913-5685 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本論文では,DNN音声合成のための韻律情報の類似性を考慮したWord Embedding(Prosodic Word Embedding)を提案する。これまで提案されているWord EmbeddingをDNN音声合成に用いる手法では,学習データとしてテキストデータのみを使用しており,得られる単語ベクトルは必ずしも単語間の韻律の類似性とは一致しない。そのため,DNN音声合成のための単語ベクトルとして最適ではないという課題がある。この問題に対し,本論文では,Word Embedding用モデルの学習に音声認識用コーパス等のテキストと音声とが対となった大規模音声コーパスを用いることで,単語とその単語の韻律情報との関係性を学習する。得られた単語ベクトルの比較の結果,提案法により得られた単語ベクトルは,テキストデータのみから得られた単語ベクトルより,類似した韻律情報を持つ単語が類似したベクトルを持つことを示す。また,DNN音声合成における客観評価実験により,テキストデータのみから得られた単語ベクトルと比較し,提案法により得られた単語ベクトルを用いることでF0の生成精度が向上することを示す。(著者抄録)

, , , , , , ,
, , , ,

音声処理

引用文献 (13件)：

H. Zen, K. Tokuda, and A.W. Black, ′′Statistical parametric speech synthesis,′′ Speech Communication, vol.51, no.11, pp.1039-1064, 2009.
H. Zen, A. Senior, and M. Schuster, ′′Statistical parametric speech synthesis using deep neural networks,′′ ICASSP 2013, pp.7962-7966, 2013.
Y. Fan, Y. Qian, F.-L. Xie, and F.K. Soong, ′′TTS synthesis with bidirectional LSTM based recurrent neural networks.,′′ INTERSPEECH 2014, pp.1964-1968, 2014.
T. Mikolov, M. Karafi?t, L. Burget, J. Cernock?, and S. Khudanpur, ′′Recurrent neural network based language model.,′′ INTERSPEECH 2010, pp.1045-1048, 2010.
T. Mikolov, I. Sutskever, K. Chen, G.S. Corrado, and J. Dean, ′′Distributed representations of words and phrases and their compositionality,′′ NIPS 2013, pp.3111-3119, 2013.

前のページに戻る