特許
J-GLOBAL ID:200903076233463126

発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ

発明者:
出願人/特許権者:
代理人 (1件): 清水 敏
公報種別:公開公報
出願番号(国際出願番号):特願2004-101094
公開番号(公開出願番号):特開2005-031632
出願日: 2004年03月30日
公開日(公表日): 2005年02月03日
要約:
【課題】環境雑音にかかわらず発話区間の検出を適切に行なうことができる発話区間検出装置を提供する。【解決手段】発話区間検出装置は、音声データをフレーム化する音声入力部104と、フレーム化された音声のエネルギ値をFIFO形式で記憶するフレームバッファ110と、フレームバッファ110内のフレームのエネルギ値を所定の統計的手法に従って処理し、環境雑音の推定値の初期値を算出する初期環境雑音算出部112と、環境雑音の推定値の初期値と、フレームバッファ110に記憶されるエネルギ値とに基づいて、音声データに含まれる環境雑音の変化に追従して変化するように、発話区間を検出するためのエネルギ値のしきい値をフレームごとに算出する動的しきい値算出部116と、このしきい値に基づいて、フレームの状態を判定する状態判定部118とを含む。【選択図】 図4
請求項(抜粋):
音声データを逐次フレーム化するためのフレーム化手段と、 前記フレーム化手段によりフレーム化された音声のエネルギ値をフレームごとに算出し、FIFO(First-In First-Out)形式で第1の個数のフレームのエネルギ値を記憶するためのフレームエネルギ算出及び記憶手段と、 前記フレームエネルギ算出及び記憶手段に、第2の個数のフレームのエネルギ値が格納されたことに応答して、前記第2の個数のフレームのエネルギ値を所定の統計的手法に従って処理することにより、前記音声データに含まれる環境雑音の推定値の初期値を算出するための初期値算出手段と、 前記推定値の初期値と、フレームエネルギ算出及び記憶手段に逐次記憶される音声のエネルギ値とに基づいて、前記音声データに含まれる環境雑音の変化に追従して変化する様に、前記発話区間を検出するためのエネルギ値のしきい値をフレームごとに逐次算出するための手段と、 前記しきい値に基づいて、前記第2の個数のフレーム以降のフレームの中で、前記音声データの発話区間の開始位置又は終了位置に対応するフレームを推定するための発話区間推定手段とを含む、発話区間検出装置。
IPC (4件):
G10L11/02 ,  G10L15/04 ,  G10L15/20 ,  G10L21/02
FI (3件):
G10L3/00 513A ,  G10L3/02 301B ,  G10L3/00 513Z
Fターム (2件):
5D015DD03 ,  5D015EE02
引用特許:
出願人引用 (1件) 審査官引用 (8件)
全件表示

前のページに戻る