特許
J-GLOBAL ID:200903039396859989

不特定話者音声認識装置およびその方法

発明者:
出願人/特許権者:
代理人 (1件): 志賀 富士弥 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平6-185054
公開番号(公開出願番号):特開平7-056594
出願日: 1994年08月08日
公開日(公表日): 1995年03月03日
要約:
【要約】【目的】 単語の発声を正確に認識できるようにした。【構成】 不特定話者の発声がマイクロフォン1を通じて電気信号に変換される。その電気信号はアンプ2で増幅され、A/D変換器3でデジタル信号変換される。その信号は窓関数機能発生器4、FTアナライザ5、パワースペクトル6を介して音素認識部7に入力される。音素認識部7では入力された信号を時系列の多次元離散特徴ベクトルに変換する。辞書8には単語が音素列の型で記憶されるとともに、全ての単語に対して音素の表音の形で表現された基準パターンが登録される。音素認識部7で認識された音素が辞書8の基準パターンと比較されとき、その音素の1個はマッチングスコアとして数式で計算される。そして、最大マッチングスコアが得られる基準パターンのうちの1個は認識単語出力部11から出力される。
請求項(抜粋):
(a)不特定話者による発声を電気信号に入力するための音声入力部と、(b)上記音声入力部から上記電気信号を受信し、上記電気信号を時系列の多次元離散特徴ベクトルに変換するための特徴抽出部と、(c)上記時系列の多次元離散特徴ベクトルを受け取り、上記各ベクトルをそれにより計算した時系列の音素識別スコアに変換する音素認識部と、(d)認識しようとする各単語に対して基準パターンを前もって記憶するように構成され、各基準パターンにはその発声の単一継続時間の長さを有する少なくとも1個の音素ラベルを有する辞書と、(e)予め定められたDPマッチング(動的計画法)技術を使用して、上記音素認識部から引き出された上記入力した音素識別スコア時系列を上記辞書に記憶された各基準パターンと比較され、上記識別スコア時系列に最大マッチングスコアを得る上記1個の基準パターンを単語の認識結果とする単語認識部と、(f)上記単語のうち少なくとも1個の単語認識結果として上記単語認識部によりコード化した形で出力する認識単語出力部とを具備する不特定話者音声認識装置。
IPC (3件):
G10L 3/00 533 ,  G10L 3/00 531 ,  G10L 9/10 301

前のページに戻る