抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本稿では,複数話者WaveNetボコーダに関する調査を行う。我々の先行研究において,単一の話者の発話を用いて学習された話者依存WaveNetボコーダは,位相情報などの時系列構造をモデル化することを可能とし,従来の高品質なSTRAIGHTボコーダを上回る品質を示すことが明らかとなった。しかしながら,話者依存WaveNetボコーダはその高い話者依存性のために,複数の話者の音声など様々な特徴を持つ音声を合成できるとは限らない。柔軟かつ高い自然性を持つ音声の合成を可能とするWaveNetボコーダの実現に向け,補助特徴量の改善,ノイズシェーピングによる聴覚マスキングの導入,及び,複数話者データを用いた学習をWaveNetボコーダに適用し,その有効性を調査する。さらに,学習データ量が合成品質に与える影響の調査も行う。我々は実験的に下記の3点を明らかにする。1)複数話者WaveNetボコーダは,既知話者に対しては話者依存WaveNetボコーダと同等の自然性を示すが,未知話者に対しては自然性が低下する。2)複数話者WaveNetボコーダは,既知話者だけでなく,未知話者に対しても従来の高品質ボコーダSTRAIGHTの自然性を大きく上回る。3)単一話者・複数話者に関わらず,客観評価値は学習データ量に比例して改善する。(著者抄録)