特許
J-GLOBAL ID:200903090068579656
音声標準パタン学習装置、方法および音声標準パタン学習プログラムを記録した記録媒体
発明者:
出願人/特許権者:
代理人 (1件):
福山 正博
公報種別:公開公報
出願番号(国際出願番号):特願2001-288294
公開番号(公開出願番号):特開2003-099082
出願日: 2001年09月21日
公開日(公表日): 2003年04月04日
要約:
【要約】 (修正有)【課題】音声認識で使用する音声標準パタンを作成するための学習の手続きにおいて、ある回線Aを通った音声を認識するための標準パタンを作成するための訓練データが少ない場合においても認識性能低下の小さい音声標準パタン作成手段を提供する。【解決手段】105は、変換パラメータ記憶手段104に格納された変換パラメータを用いて、B2訓練データ記憶手段106に格納された回線Bの訓練データを、回線Aのデータ分布に近くなるように変換して標準パタン作成手段108に渡す。標準パタン作成手段108は、訓練データ変換手段105によって回線Aに近い分布に変換された回線Bの訓練データと、すでにある回線Aの訓練データを併用して、音声標準パタンを出力する。
請求項(抜粋):
ある回線Aを経由して収録された音声訓練データを格納する訓練データ記憶手段Aと、これとは別の回線Bを経由して前記音声訓練データと同時並列で収録された音声訓練データを格納する訓練データ記憶手段Bと、前記2種の訓練データの対応する時刻での値の差異から、前記回線Aおよび回線Bとの相関関係を規定するいくつかのパラメータを推定する変換パラメータ学習手段と、前記変換パラメータ学習手段が推定したパラメータを格納する変換パラメータ記憶手段と、前記訓練データ記憶手段Aに格納された訓練データの発声内容の発音記号列を格納する発音記号記憶手段Aと、前記回線Bを経由してはいるが、前記訓練データ記憶手段Bに格納された訓練データとは別の訓練データを格納する訓練データ記憶手段B’と、前記訓練データ記憶手段B’に格納された訓練データの発生内容の発音記号列を格納する発音記号記憶手段B’と、前記変換パラメータ記憶手段に格納されたパラメータを用いて前記訓練データ記憶手段B’に格納された訓練データを回線Aの分布に近づける変換を施す訓練データ変換手段と、前記訓練データ変換手段によって変換された訓練データと前記訓練データ記憶手段Aに格納された訓練データを用い、かつ発音記号記憶手段Aおよび発音記号記憶手段B’にそれぞれ格納された発音記号列を用い、回線Aの音声を認識するための音声標準パタンを作成し出力する標準パタン作成手段と、を備えることを特徴とする音声標準パタン学習装置。
IPC (3件):
G10L 15/06
, G10L 15/10
, G10L 15/14
FI (4件):
G10L 3/00 521 R
, G10L 3/00 521 C
, G10L 3/00 535 A
, G10L 3/00 531 E
Fターム (4件):
5D015GG03
, 5D015GG04
, 5D015HH04
, 5D015HH23
引用特許:
審査官引用 (3件)
-
音声認識方法
公報種別:公開公報
出願番号:特願平5-305373
出願人:日本電信電話株式会社
-
音声認識方法
公報種別:公開公報
出願番号:特願平5-239494
出願人:日本電信電話株式会社
-
特開平1-094398
前のページに戻る