特許
J-GLOBAL ID:200903011166364091

音声・動画像合成装置及び音声・動画像データベース

発明者:
出願人/特許権者:
代理人 (1件): 松田 正道
公報種別:公開公報
出願番号(国際出願番号):特願平10-029437
公開番号(公開出願番号):特開平11-231899
出願日: 1998年02月12日
公開日(公表日): 1999年08月27日
要約:
【要約】【課題】 合成音声に同期した顔の動画像が違和感があり不自然である。【解決手段】 多数のテキスト例に対して構文解析を行い、入力テキスト中の単語の読み、アクセント位置、ポーズ位置などの言語情報から決定された音韻列と、各音韻列の基本周波数パターン、パワー、スペクトルなどの韻律情報と、各音韻列に対応する音声単位波形列とを格納する音声データベース105と、所定の入力テキストに対して構文解析を行い、その入力テキスト中の単語の読み、アクセント位置、ポーズ位置などの言語情報を決定する言語解析手段101と、言語解析手段から言語情報を受け取り、入力テキストに対応した、少なくとも、音韻列、基本周波数パターンを決定する音韻パラメータ生成手段と102、音声データベース105に格納された音韻列、韻律情報を参照しながら、音韻パラメータ生成部の決定した音韻列、基本周波数パターンに適合する音声単位波形の波形を、音声データベース105から選択し、各接続することにより合成音声を生成する音声単位接続手段103とを備える。
請求項(抜粋):
多数のテキスト例に対して構文解析を行い、入力テキスト中の単語の読み、アクセント位置、ポーズ位置などの言語情報から決定された音韻列と、各音韻列の基本周波数パターン、パワー、スペクトルなどの韻律情報と、各音韻列に対応する音声単位波形列とを格納する音声データベースと、所定の入力テキストに対して構文解析を行い、その入力テキスト中の単語の読み、アクセント位置、ポーズ位置などの言語情報を決定する言語解析手段と、前記言語解析手段から言語情報を受け取り、前記入力テキストに対応した、少なくとも、音韻列、基本周波数パターンを決定する音韻パラメータ生成手段と、前記音声データベースに格納された音韻列、韻律情報を参照しながら、前記音韻パラメータ生成部の決定した音韻列、基本周波数パターンに適合する音声単位波形の波形を、前記音声データベースから選択し、各接続することにより合成音声を生成する音声単位接続手段と、を備えたことを特徴とする音声合成装置。
IPC (6件):
G10L 5/04 ,  G06T 13/00 ,  G09G 5/00 510 ,  G09G 5/00 530 ,  G10L 3/00 ,  G06F 17/30
FI (7件):
G10L 5/04 F ,  G09G 5/00 510 Q ,  G09G 5/00 530 M ,  G10L 3/00 S ,  G10L 3/00 H ,  G06F 15/62 340 A ,  G06F 15/40 370 G

前のページに戻る