特許
J-GLOBAL ID:200903032998115668
音声認識方法および音声認識装置
発明者:
,
,
出願人/特許権者:
代理人 (1件):
岩橋 文雄 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-064919
公開番号(公開出願番号):特開2001-255886
出願日: 2000年03月09日
公開日(公表日): 2001年09月21日
要約:
【要約】【課題】 利用者に対して一定内容の発声を促す必要性が無い、オンライン「教師なし」で話者の個人性特徴にすばやく正規化できる話者正規化処理を用いる音声認識装置を提供する。【解決手段】 A/D変換を行ってデジタル化された音声を入力信号として、LPCケプストラム係数等の特徴量を抽出し(S10)、発声者の声道長の個人性に起因する影響を正規化するために、LPCケプストラム等の特徴量に周波数軸の変換を施し(S30)、周波数軸変換を施された入力音声の特徴量と予め複数話者から学習した音響モデル特徴量とのマッチングを行なう(S50)。その後、S50において算出された認識結果をもとに入力発声を教師信号として最適な変換係数を求め(S60)、話者や音韻によるばらつきを吸収するため変換係数平滑化を行い、新たな周波数軸変換係数を更新する(S70)。
請求項(抜粋):
入力音声の特徴量を抽出する特徴量抽出ステップと、前記入力音声の特徴量の周波数軸を少なくとも1つの周波数軸変換係数から構成される周波数軸変換係数列を用いて変換する周波数軸変換ステップと、前記周波数軸変換を施した入力音声の特徴量と予め複数の話者から学習した音響モデル特徴量とをマッチングし、認識結果候補を出力するマッチングステップと、前記認識結果候補のうち少なくとも1つから表現される音素系列に対して少なくとも1つの周波数軸変換係数から構成される最適な周波数軸変換係数列を推定する最適変換係数推定ステップと、前記求められた最適な周波数軸変換係数列と保持された過去に求められた周波数軸変換係数列とを平滑化し、新たな周波数軸変換係数列を更新・保持する変換係数平滑化ステップとを有することを特徴とする音声認識方法。
IPC (6件):
G10L 15/10
, G10L 11/06
, G10L 15/02
, G10L 15/20
, G10L 21/02
, G10L101:16
FI (4件):
G10L101:16
, G10L 9/16 301 B
, G10L 3/00 515 D
, G10L 3/02 301 A
Fターム (8件):
5D015AA02
, 5D015BB02
, 5D015FF07
, 9A001BB06
, 9A001EE05
, 9A001GG01
, 9A001HH16
, 9A001HH17
引用特許:
前のページに戻る