特許
J-GLOBAL ID:200903098200548995

スピーチ認識のための音調特徴

発明者:
出願人/特許権者:
代理人 (1件): 沢田 雅男
公報種別:公表公報
出願番号(国際出願番号):特願2001-537044
公開番号(公開出願番号):特表2003-514260
出願日: 2000年11月10日
公開日(公表日): 2003年04月15日
要約:
【要約】【課題】 スピーチ信号から音調特徴を抽出することを改良すること。【解決手段】 適合型プルーニングによる基本周波数(F0)輪郭のオンライン・ルックアヘッド逆トレースを導入することで、強健な音響音調特徴が得られる。この基本周波数は、フロントエンドを処理する信号として機能する。その後、このF0輪郭は、F0輪郭の重み付け(母音をより強調する)最小二乗法と協力した、時変重み付け移動平均により、語彙音調効果、フレーズイントネーション効果、およびランダム効果に分解される。フレーズイントネーション効果は、有声のF0輪郭の長期傾向として定義され、F0輪郭の重み付け移動平均により、信号の周期性の程度に関連した重みを使って、近似することができる。これは、語彙音調効果とは無関係であるので、重ね合わせ仮定の下で、F0輪郭の減算により取り除かれる。音響の音調特徴は、2つの部分により定義される。第1の部分は、音節の平均長さに関連したウィンドウ寸法と信号の周期性の程度に対応する重みを使った、隣接フレームにわたるF0輪郭のイントネーション除去の二次の重み付け回帰の係数である。第2の部分は、自己相関の二次回帰の係数である信号の周期性の程度を取り扱う。これには、ルックアヘッド逆トレース手順からのピッチ推定値の逆数に対応する遅延が使われる。F0輪郭のイントネーション除去の二次重み付け回帰のこれらの重みは、半濁音子音についての有声ピッチ輪郭を保存するために、ピッチ輪郭の有声または無声セグメントを強調するかまたは強調を減少するように設計されている。この手法の利点は、例え、スピーチセグメント化にわずかな誤りがある場合でも、オンライン信号前処理フロントエンドとしてサーブされているF0輪郭についてのルックアヘッド適応型プルーニング逆トレースのための重みは、子音のピッチ輪郭のために母音のピッチ輪郭を保存するだろう。音調特徴のこの母音保存特性には、スピーチセグメント化に誤りがあるためモデルパラメータがバイアス推定されるのを妨げる能力がある。
請求項(抜粋):
音調言語において話されたスピーチを表す時間的に連続した入力信号を認識するためのスピーチ認識システムであって、前記システムが、 前記入力信号を受けるための入力端子と、 前記入力信号のセグメントを観測特徴ベクトルとして表すためのスピーチ解析サブシステムと、 前記観測特徴ベクトルを、訓練されたスピーチ認識ユニットの在庫表に対してマッチングを行うための、各ユニットが少なくとも1つの基準特徴ベクトルにより表されるユニットマッチングサブシステムとを含み、 前記特徴ベクトルが、前記特徴ベクトルにより表される前記スピーチセグメントの推定された発声の程度から導き出された成分を含むことを特徴とするスピーチ認識システム。
FI (2件):
G10L 9/00 301 A ,  G10L 9/08 301 A
Fターム (1件):
5D015CC13

前のページに戻る