特許
J-GLOBAL ID:201903003420021056

スピーチチェイン装置、コンピュータプログラムおよびDNN音声認識・合成相互学習方法

発明者:
出願人/特許権者:
代理人 (1件): 松永 裕吉
公報種別:公開公報
出願番号(国際出願番号):特願2018-001538
公開番号(公開出願番号):特開2019-120841
出願日: 2018年01月09日
公開日(公表日): 2019年07月22日
要約:
【課題】人間のスピーチチェインのメカニズムを機械で再現するスピーチチェイン装置を提供する。【解決手段】スピーチチェイン装置(100)は、音声特徴系列データを入力とし文字系列データを出力とするDNN音声認識部(10)と、文字系列データを入力とし音声特徴系列データを出力とするDNN音声合成部(20)と、入力音声から音声特徴系列データを生成する音声特徴抽出部(30)と、入力テキストから文字系列データを生成するテキスト特徴抽出部(40)と、音声合成部から出力された音声特徴系列データを学習データ、テキスト特徴抽出部で生成された文字系列データを教師データとして用いて音声認識部を学習させる第1の学習制御部(70)と、音声認識部から出力された文字系列データを学習データ、音声特徴抽出部で生成された音声特徴系列データを教師データとして用いて音声合成部を学習させる第2の学習制御部(80)と、を備える。【選択図】図6
請求項(抜粋):
音声特徴系列データを入力とし文字系列データを出力とするディープニューラルネットワークで構築された音声認識部と、 文字系列データを入力とし音声特徴系列データを出力とするディープニューラルネットワークで構築された音声合成部と、 入力された音声を処理して、前記音声認識部に入力される前記音声特徴系列データを生成する音声特徴抽出部と、 前記音声認識部から出力される前記文字系列データに基づいて、前記音声特徴抽出部に入力された音声に対応するテキストを生成するテキスト生成部と、 入力されたテキストを処理して、前記音声合成部に入力される前記文字系列データを生成するテキスト特徴抽出部と、 前記音声合成部から出力される前記音声特徴系列データに基づいて、前記テキスト特徴抽出部に入力されたテキストに対応する音声を生成する音声生成部と、 前記音声合成部から出力された前記音声特徴系列データを学習データとして前記音声認識部に入力し、前記テキスト特徴抽出部によって生成された前記文字系列データを教師データとして用いて前記音声認識部を学習させる第1の学習制御部と、 前記音声認識部から出力された前記文字系列データを学習データとして前記音声合成部に入力し、前記音声特徴抽出部によって生成された前記音声特徴系列データを教師データとして用いて前記音声合成部を学習させる第2の学習制御部と、を備えたスピーチチェイン装置。
IPC (4件):
G10L 15/16 ,  G10L 15/06 ,  G10L 13/08 ,  G10L 13/06
FI (4件):
G10L15/16 ,  G10L15/06 300Z ,  G10L13/08 150Z ,  G10L13/06 140

前のページに戻る