Pat
J-GLOBAL ID:201303037738710125

音声認識装置及びプログラム

Inventor:
Applicant, Patent owner:
Agent (1): 神谷 英昭
Gazette classification:公開公報
Application number (International application number):2011270381
Publication number (International publication number):2013122508
Application date: Dec. 09, 2011
Publication date: Jun. 20, 2013
Summary:
【課題】学習用音声信号と学習用音声信号の正解クラス情報を用いて音声認識に最適化された識別的な特徴量変換を生成し、認識音声信号に該特徴量変換を適用して音響特徴量を抽出し用いることで、音響雑音の影響を抑制することができる音声認識装置を提供する。【解決手段】学習部10は、学習用音声信号を音声入力部1で変換したベクトル系列及び学習用音声信号の正解クラス情報を入力として、該ベクトル系列及び該学習用音声信号の正解クラス情報からクラス識別変換を計算するクラス識別変換構築部11と、該ベクトル系列及び該学習用音声信号の正解クラス情報乃至該クラス識別変換から次元圧縮・線形直交変換を計算する次元圧縮・線形直交変換構築部12を備える。適用部20は、認識音声信号を音声入力部1で変換したベクトル系列を入力として、該ベクトル系列及び前記クラス識別変換乃至前記次元圧縮・線形直交変換から音響特徴量を抽出する特徴量抽出部21と、該音響特徴量を用いて音声認識を行い認識結果を出力する音声認識部2を備える。【選択図】図1
Claim (excerpt):
発話者の音声信号を入力してディジタル信号に変換し、該ディジタル信号からベクトル系列に変換して出力する音声入力部と、 前記音声入力部が出力する学習用音声信号のベクトル系列と、学習用音声信号の正解クラス情報とを入力して、クラス識別変換を出力するクラス識別変換構築部と、 前記音声入力部が出力する前記学習用音声信号のベクトル系列と、前記学習用音声信号の正解クラス情報と、前記クラス識別変換とを入力して次元圧縮・線形直交変換を出力する次元圧縮・線形直交変換構築部と、 前記音声入力部が出力する認識音声信号のベクトル系列と、前記クラス識別変換と、前記次元圧縮・線形直交変換とを入力して、音響特徴量を抽出する特徴量抽出部と、 前記認識音声信号を、前記特徴量抽出部が生成した音響特徴量に基づいて、音声認識を行う音声認識部と、 を備えたことを特徴とする音声認識装置。
IPC (2):
G10L 15/02 ,  G10L 25/39
FI (2):
G10L15/02 300Z ,  G10L11/00 201D
F-Term (1):
5D015CC00

Return to Previous Page