特許
J-GLOBAL ID:200903083430841473

音声合成装置、方法及びプログラム

発明者:
出願人/特許権者:
代理人 (1件): 工藤 宣幸
公報種別:公開公報
出願番号(国際出願番号):特願2008-097726
公開番号(公開出願番号):特開2009-251199
出願日: 2008年04月04日
公開日(公表日): 2009年10月29日
要約:
【課題】 無声音声と口唇画像とから有音音声を合成する際に、発話者が意図する抑揚を合成音声に反映させる。【解決手段】 本発明は、発話者の無声音声と撮像口唇画像とが同期して入力され、有音音声を合成する音声合成装置に関する。映像信号分析手段は、入力口唇画像から有声音の母音情報を抽出し、母音発声時の口唇の開閉大きさと、予め設定した基準大きさとの比率をピッチ比率として抽出する。音声信号分析手段は、入力無声音声と、映像信号分析手段が抽出した母音に対応する無声母音の音響モデルとから、子音情報を抽出し、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、テキスト情報を抽出し、入力無声音声のパワー変化から発声全体の継続時間長を抽出する。音声合成手段は、上述の両分析手段によって抽出された各種情報から、抑揚を付与した有音音声を合成する。【選択図】 図1
請求項(抜粋):
音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成装置において、 入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、 第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、 上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段と を有することを特徴とする音声合成装置。
IPC (5件):
G10L 13/08 ,  G10L 15/10 ,  G10L 15/24 ,  G10L 11/04 ,  G10L 21/04
FI (6件):
G10L13/08 132 ,  G10L15/10 400R ,  G10L15/24 Q ,  G10L11/04 ,  G10L21/04 110Z ,  G10L21/04 120Z
Fターム (2件):
5D015JJ01 ,  5D015JJ02
引用特許:
出願人引用 (1件)

前のページに戻る