抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
高品質な統計的パラメトリック音声合成システムの構築には,スタジオ等の理想的な環境で収録された音声データの利用が不可欠であるため,現存する膨大な音声データのうち,音声合成の学習に利用可能なものは非常に限定される。本稿では,雑音環境下音声から高品質な音声合成を構築する方法を提案する。従来,そのような音声を学習データとして用いる場合,spectral subtraction等の雑音抑圧処理を施した後に,通常の音声合成の学習を行う。しかしながら,雑音スペクトルの生成分布をパラメトリックに定義する雑音抑圧法は処理後の音声を歪ませ,さらに,その歪みは音声合成の学習時に増幅されて合成音声品質を悪化させる。そこで本稿では,敵対的学習アルゴリズムにより学習される雑音生成モデルを用いた,音声合成の学習法を提案する。雑音生成モデルは,観測雑音スペクトルの統計量を持つように学習され,雑音スペクトルを確率的に生成する。テキストから音声スペクトルを生成する音声合成モデルは,生成雑音を加算した後のスペクトルが雑音環境下音声のスペクトルに一致するように学習される。提案法は,雑音スペクトルの生成分布を柔軟にモデル化でき,さらに,雑音加算過程を考慮して音声合成モデルを学習するため,従来法において生じる品質低下を低減できる。実験的評価では,いくつかの雑音抑圧強度とSN比において合成音声を作成し,提案法の知覚的音質が従来法を上回ることを示す。(著者抄録)