特許
J-GLOBAL ID:200903067015885044
不特定話者音素認識方法
発明者:
出願人/特許権者:
代理人 (1件):
志賀 富士弥 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平4-013516
公開番号(公開出願番号):特開平5-204399
出願日: 1992年01月29日
公開日(公表日): 1993年08月13日
要約:
【要約】【目的】 少数話者の発声する音声データで学習させても良好な音素認識結果が得られるようにしたものである。【構成】 階層型ニューラルネットワークで構築した次元圧縮器を用いて音声データを圧縮する。圧縮されたデータと学習ベクトル量子化(LVQ)によって参照ベクトルを得る。得られた参照ベクトルとの写像関数を別の階層型ニューラルネットで学習させる。これにより学習データと認識データの変動を吸収する。
請求項(抜粋):
階層型ニューラルネットワークで構築した次元圧縮器で音声データを圧縮し、その圧縮されたデータと学習ベクトル量子化法によって得られる参照ベクトルとの写像関数をもう1つの階層型ニューラルネットワークで学習させて学習データと認識データの変動を吸収し、少数話者の音声データで学習ベクトル量子化法に不特定性を持たせるようにしたことを特徴とする不特定話者音素認識方法。
IPC (3件):
G10L 9/10 301
, G06F 15/18
, G10L 3/00 531
前のページに戻る