特許
J-GLOBAL ID:200903045836106783

音声処理装置

発明者:
出願人/特許権者:
代理人 (1件): 中島 淳 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-215094
公開番号(公開出願番号):特開2002-032094
出願日: 2000年07月14日
公開日(公表日): 2002年01月31日
要約:
【要約】【課題】 音声信号における音声区間を適切に安定して切り出すことが可能な音声処理装置を提供すること。【解決手段】 ステップ200で作成した認識可能単語リスト上の各単語において、その先頭の音素から、予め定めた閾値未満のパワー値の音素が連続する場合に、各音素の継続時間長の総和の最大値を求める(ステップ202〜214)。入力音声信号のパワー値が初めて閾値以上となった時点から、この最大値の時間だけ遡った時間を音声区間の始端とする。次に、認識可能単語リスト上の各単語において、その先頭以外の音素から上記閾値未満のパワー値の音素が連続する場合に、各音素の継続時間長の総和の最大値を求める(ステップ216〜228)。入力音声信号のパワー値が、この最大値より長く継続して閾値未満である場合、パワー値が閾値未満となった時点から、この最大値の時間長経過した時間を音声区間の終端とする。
請求項(抜粋):
入力された音声信号を認識する認識装置へ認識のための音声区間を切り出して出力する音声処理装置において、複数の単語各々について、前記単語を構成する音素の配列情報、前記各音素の強度情報、及び前記各音素の継続時間情報に基づいて、前記強度情報が予め定めた閾値未満の音素を含む単語における該音素の継続時間情報の最長時間を求め、求めた各単語に対する最長時間の最大値を前切出時間長と推定する推定手段と、前記音声信号の強度が前記閾値以上になる直前で、かつ前記推定手段で推定した前切出時間長の時間から、前記音声信号を抽出して前記音声区間として出力する抽出手段と、を備えた音声処理装置。
IPC (8件):
G10L 11/02 ,  G10L 15/04 ,  G06F 3/16 320 ,  G10L 15/18 ,  G10L 15/00 ,  G10L 15/28 ,  G01C 21/00 ,  G08G 1/0969
FI (6件):
G06F 3/16 320 H ,  G01C 21/00 H ,  G08G 1/0969 ,  G10L 3/00 513 A ,  G10L 3/00 537 H ,  G10L 3/00 551 Q
Fターム (15件):
2F029AA02 ,  2F029AB13 ,  2F029AC02 ,  2F029AC18 ,  5D015AA04 ,  5D015BB02 ,  5D015DD02 ,  5D015DD04 ,  5D015FF06 ,  5D015HH11 ,  5D015KK02 ,  5H180AA01 ,  5H180FF11 ,  5H180FF21 ,  5H180FF27

前のページに戻る