音声認識装置及び音声認識方法

発明者： , ,
出願人/特許権者：
代理人 (1件)：特許業務法人OFH特許事務所
公報種別：特許公報
出願番号（国際出願番号）：特願2011-053124
公開番号（公開出願番号）：特開2011-191759
特許番号：特許第5738020号
出願日： 2011年03月10日
公開日（公表日）： 2011年09月29日
請求項（抜粋）：

【請求項1】複数音源からの混合音を分離する音源分離部と、前記分離された音声信号のパワーをインデクスに変換し、前記分離された音声信号の周波数スペクトルの成分ごとに生成された、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、移動平均の重みをつけた累積ヒストグラムを更新し、下記数式(1)のχに相当する累積ヒストグラムのインデクスを求め、前記累積ヒストグラムの最小パワーレベルとパワーレベル幅と最大インデクスと前記χと時間減衰パラメータとを用いてノイズパワーを求め、前記ノイズパワーに基づくノイズ閾値を使用して、音声信号とノイズとを分離し、前記分離された音声信号の分離信頼度に対する音声信号の分布及びノイズの分布を求めることによって、前記分離された音声信号の周波数のスペクトル成分ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部と、を備えた音声認識装置。ここで、 t:時間ステップ、 i:整数インデクス、 S(t,i):累積頻度、 Imax:累積ヒストグラムの最大インデクス、 argmin(i下付き):[]内の値を最小値とするi、 Ix(t):χを求めるために計算される値。

IPC (2件)：

G10L 15/20 ( 200 6.01) , G10L 15/10 ( 200 6.01)

FI (3件)：

G10L 15/20 370 Z , G10L 15/10 300 G , G10L 15/20 370 D

引用特許：

出願人引用 (3件)

音声認識装置及び音声認識装置のマスク生成方法
公報種別：公開公報出願番号：特願2009-185164 出願人：本田技研工業株式会社
モータ雑音下におけるロボット用音声認識方法
公報種別：公開公報出願番号：特願2007-235753 出願人：本田技研工業株式会社
信号分離装置及び信号分離方法
公報種別：公開公報出願番号：特願2008-061727 出願人：トヨタ自動車株式会社, 国立大学法人奈良先端科学技術大学院大学

審査官引用 (3件)

音声認識装置及び音声認識装置のマスク生成方法
公報種別：公開公報出願番号：特願2009-185164 出願人：本田技研工業株式会社
モータ雑音下におけるロボット用音声認識方法
公報種別：公開公報出願番号：特願2007-235753 出願人：本田技研工業株式会社
信号分離装置及び信号分離方法
公報種別：公開公報出願番号：特願2008-061727 出願人：トヨタ自動車株式会社, 国立大学法人奈良先端科学技術大学院大学

引用文献：

出願人引用 (1件)

音源分離との統合によるミッシングフィーチャマスク自動生成に基づく同時発話音声認識 Simultaneous Speec

審査官引用 (1件)

音源分離との統合によるミッシングフィーチャマスク自動生成に基づく同時発話音声認識 Simultaneous Speec

前のページに戻る