特許
J-GLOBAL ID:200903059758441288

音声認識装置及び音声認識方法、音声認識システム、並びに、プログラム記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 青山 葆 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-127390
公開番号(公開出願番号):特開2001-312295
出願日: 2000年04月27日
公開日(公表日): 2001年11月09日
要約:
【要約】【課題】 少量の音声データで発声癖に起因する個人差も正規化する。【解決手段】 学習モード時には、マッチング平均化処理部6は、対象話者と標準話者とのスペクトル包絡に関する周波数ワーピング関数を求め、音素,類似音素,有声音区間/無声音区間および音声区間全体毎の平均値を求めて格納する。認識モード時には、上記平均周波数ワーピング関数を用いて、認識対象話者から標準話者へのスペクトル包絡変換を行い、得られた話者正規化済みスペクトル包絡を用いて音素を認識する。その際に、上記周波数ワーピング関数は、各音素毎に平均された平均スペクトル包絡を用いて算出するため、発声癖に起因する個人差を正規化できる。また、認識対象話者の発声データ量が少ない場合には、類似音素,有声音区間/無声音区間等の平均周波数ワーピング関数を用いることによって、発声データ量が少ない場合でも対処できる。
請求項(抜粋):
第1話者の音声を第2話者の音声に変換して話者正規化する話者正規化機能付きの音声認識装置であって、上記第1話者が発声した第1音声から第1スペクトル包絡を抽出する一方、第2話者が発声した第2音声から第2スペクトル包絡を抽出するスペクトル包絡抽出手段と、上記抽出された第1スペクトル包絡および第2スペクトル包絡を、音声単位のラベルを付与して格納する第1メモリ手段と、同一ラベルに関して、上記第1メモリに格納された上記第1スペクトル包絡と第2スペクトル包絡とに対して動的計画法を用いた非線形な周波数伸縮マッチングを行って、両スペクトル包絡の周波数軸の対応付けを表わす周波数ワーピング関数を求める非線形周波数軸スペクトルマッチング手段と、上記周波数ワーピング関数を、音声単位のラベルを付与して格納する第2メモリ手段と、上記スペクトル包絡抽出手段によって抽出された認識対象の第1スペクトル包絡が入力されて、この認識対象第1スペクトル包絡の音声単位と同じ音声単位名の周波数ワーピング関数を上記第2メモリから読み出し、この読み出された周波数ワーピング関数に基づいて、上記認識対象第1スペクトル包絡を第2話者に関するスペクトル包絡に変換するスペクトル包絡変換手段と、上記変換された正規化済みスペクトル包絡に基づいて入力音声を認識する音声認識手段を備えたことを特徴とする音声認識装置。
IPC (5件):
G10L 15/20 ,  G10L 21/02 ,  G10L 15/12 ,  G10L 15/02 ,  G10L101:02
FI (4件):
G10L101:02 ,  G10L 3/02 301 A ,  G10L 3/00 533 Z ,  G10L 7/08 A
Fターム (4件):
5D015EE03 ,  5D015HH07 ,  5D015HH11 ,  5D015HH21
引用特許:
出願人引用 (4件)
  • 特開平4-147300
  • 話者正規化処理装置及び音声認識装置
    公報種別:公開公報   出願番号:特願平11-011720   出願人:株式会社エイ・ティ・アール音声翻訳通信研究所
  • 特開昭63-259694
全件表示
審査官引用 (2件)

前のページに戻る