特許
J-GLOBAL ID:200903075858876015
音声セグメンテーション方法
発明者:
,
,
,
出願人/特許権者:
代理人 (1件):
足立 勉
公報種別:公開公報
出願番号(国際出願番号):特願平5-126112
公開番号(公開出願番号):特開平6-337693
出願日: 1993年05月27日
公開日(公表日): 1994年12月06日
要約:
【要約】【目的】 音声セグメンテーションにて、連続する母音を正確に認識する。【構成】 図2は本発明の一実施例を示すブロック図である。音響分析部10は入力音声をフィルタに通してA/D変換し、特徴パラメータ抽出部12は所定のフレーム周期毎に分析してフレーム毎の特徴パラメータ(LPCケプストラム係数)を求める。音素認識部14(ニューラルネット)は特徴パラメータ時系列をフレーム単位でずらしながらフレーム毎の音素を識別する。音素時系列平滑部16は音素時系列から5つの音素を1フレームづつずらしながら取り出し、その5つの音素を予め定められた処理手順に基づき平滑化する。その際母音が連続する区間については、音響的な近似度を示す音素間の距離を用いた母音平均化処理が実行される。セグメンテーション部18は各認識音素出力が連続する区間に区切り、調音処理部19で所定フレーム長以下のものが除去される。
請求項(抜粋):
入力音声を所定のフレーム周期毎に分析してフレーム毎の特徴パラメータを求めて特徴パラメータ時系列を生成し、該特徴パラメータ時系列をフレーム単位でずらしながらフレーム毎の音素を識別して音素時系列を生成し、該音素時系列から、予め数が定められた複数の音素を所定数のフレームづつずらしながら取り出し、該複数の音素を予め定められた処理手順に基づき平滑化することで、該複数の音素に対応する音素を決定して平滑化音素列を生成することを特徴とする音声セグメンテーション方法。
IPC (3件):
G10L 3/00 515
, G10L 5/06
, G10L 9/10 301
前のページに戻る