特許
J-GLOBAL ID:201303037738710125

音声認識装置及びプログラム

発明者:
出願人/特許権者:
代理人 (1件): 神谷 英昭
公報種別:公開公報
出願番号(国際出願番号):特願2011-270381
公開番号(公開出願番号):特開2013-122508
出願日: 2011年12月09日
公開日(公表日): 2013年06月20日
要約:
【課題】学習用音声信号と学習用音声信号の正解クラス情報を用いて音声認識に最適化された識別的な特徴量変換を生成し、認識音声信号に該特徴量変換を適用して音響特徴量を抽出し用いることで、音響雑音の影響を抑制することができる音声認識装置を提供する。【解決手段】学習部10は、学習用音声信号を音声入力部1で変換したベクトル系列及び学習用音声信号の正解クラス情報を入力として、該ベクトル系列及び該学習用音声信号の正解クラス情報からクラス識別変換を計算するクラス識別変換構築部11と、該ベクトル系列及び該学習用音声信号の正解クラス情報乃至該クラス識別変換から次元圧縮・線形直交変換を計算する次元圧縮・線形直交変換構築部12を備える。適用部20は、認識音声信号を音声入力部1で変換したベクトル系列を入力として、該ベクトル系列及び前記クラス識別変換乃至前記次元圧縮・線形直交変換から音響特徴量を抽出する特徴量抽出部21と、該音響特徴量を用いて音声認識を行い認識結果を出力する音声認識部2を備える。【選択図】図1
請求項(抜粋):
発話者の音声信号を入力してディジタル信号に変換し、該ディジタル信号からベクトル系列に変換して出力する音声入力部と、 前記音声入力部が出力する学習用音声信号のベクトル系列と、学習用音声信号の正解クラス情報とを入力して、クラス識別変換を出力するクラス識別変換構築部と、 前記音声入力部が出力する前記学習用音声信号のベクトル系列と、前記学習用音声信号の正解クラス情報と、前記クラス識別変換とを入力して次元圧縮・線形直交変換を出力する次元圧縮・線形直交変換構築部と、 前記音声入力部が出力する認識音声信号のベクトル系列と、前記クラス識別変換と、前記次元圧縮・線形直交変換とを入力して、音響特徴量を抽出する特徴量抽出部と、 前記認識音声信号を、前記特徴量抽出部が生成した音響特徴量に基づいて、音声認識を行う音声認識部と、 を備えたことを特徴とする音声認識装置。
IPC (2件):
G10L 15/02 ,  G10L 25/39
FI (2件):
G10L15/02 300Z ,  G10L11/00 201D
Fターム (1件):
5D015CC00

前のページに戻る