特許
J-GLOBAL ID:201203011989709928

音声合成方法、音声合成装置及び音声合成プログラム

発明者:
出願人/特許権者:
代理人 (4件): 中尾 直樹 ,  中村 幸雄 ,  義村 宗洋 ,  草野 卓
公報種別:公開公報
出願番号(国際出願番号):特願2010-292223
公開番号(公開出願番号):特開2012-141354
出願日: 2010年12月28日
公開日(公表日): 2012年07月26日
要約:
【課題】少ない量の目標話者の音声データから得られる類似話者音声データベースを用いて、対象テキストに対応し、目標話者の特徴を持つ音声を合成する音声合成方法、音声合成装置及び音声合成プログラムを提供する。【解決手段】目標話者の音声データとの話者類似度が高い複数の部分音声データと、部分音声データを発した話者を示す類似話者識別子と部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースが予め記憶される。音素情報に基づいて、対象テキストの音素コンテキストに合成単位で適合する音声素片候補を類似話者音声データベースから探索する。各音声素片候補の類似話者識別子に対応する話者類似度を少なくとも用いて、合成単位の対象テキストと音声素片候補との適合度を総合コストとして算出する。【選択図】図3
請求項(抜粋):
対象テキストに対応し、目標話者の音声特徴を持つ合成音声を生成する音声合成方法であって、 2つの音声データが類似しているか否かを示す指標を話者類似度とし、複数の話者の音声データを用いて、各話者の音声データと目標話者の音声データとの話者類似度を求め、話者類似度が高い音声データを複数選択する類似話者選択ステップと、 複数選択した音声データを統合して、合成音声を組み立てる上で適切な合成単位の部分音声データと、部分音声データに対して付与される情報であって当該部分音声データを発した話者を示す類似話者識別子と当該部分音声データの発声音素を示す音素情報とを少なくとも示す音声素片とからなる類似話者音声データベースを構築する話者統合ステップと、 前記対象テキストを解析して、対象テキストの読み情報を取得するテキスト解析ステップと、 前記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、 前記音素情報に基づいて、前記音素コンテキストに合成単位で適合する音声素片候補を前記類似話者音声データベースから探索する音声素片候補探索ステップと、 各前記音声素片候補の類似話者識別子に対応する前記話者類似度を少なくとも用いて、合成単位の前記対象テキストと音声素片候補との適合度を総合コストとして算出し、この総合コストが最良となるときの音声素片候補を、それぞれ選択音声素片として選択する素片選択ステップと、 前記選択音声素片に対応する部分音声データを前記類似話者音声データベースから読み込み、この部分音声データを接続して前記合成音声を得る素片接続ステップと、を有する、 音声合成方法。
IPC (3件):
G10L 13/06 ,  G10L 21/04 ,  G10L 13/08
FI (5件):
G10L13/06 240C ,  G10L13/06 210Z ,  G10L13/06 130 ,  G10L21/04 120D ,  G10L13/08 130B
引用特許:
出願人引用 (5件)
全件表示
審査官引用 (5件)
全件表示

前のページに戻る