特許
J-GLOBAL ID:200903075089117882

音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法

発明者:
出願人/特許権者:
代理人 (1件): 田澤 博昭 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-156741
公開番号(公開出願番号):特開2000-347685
出願日: 1999年06月03日
公開日(公表日): 2000年12月15日
要約:
【要約】【課題】 英語の単語音声を正しく発声しない場合でも、精度の高い音声認識を実現する。【解決手段】 再クラスタリング手段11は、第2の単語モデル109により、単語音声データ103に対しクラスタリングを行い隣接する単語音声データを見つけ、隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群108に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデル111を出力する。
請求項(抜粋):
入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第2の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリと、この単語モデルメモリに格納されている第3の単語モデルを用いて、上記音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段とを備えたことを特徴とする音声認識装置。
IPC (3件):
G10L 15/10 ,  G10L 15/06 ,  G10L 15/18
FI (4件):
G10L 3/00 531 F ,  G10L 3/00 531 J ,  G10L 3/00 521 N ,  G10L 3/00 537 Z
Fターム (4件):
5D015AA01 ,  5D015AA02 ,  5D015GG04 ,  5D015HH04
引用特許:
出願人引用 (7件)
  • 音声認識装置
    公報種別:公開公報   出願番号:特願平9-059138   出願人:三菱電機株式会社
  • 音声識別装置、発音矯正装置およびこれらの方法
    公報種別:公開公報   出願番号:特願平10-253449   出願人:インターナショナル・ビジネス・マシーンズ・コーポレイション
  • 特開昭62-231996
全件表示
引用文献:
前のページに戻る