特許
J-GLOBAL ID:200903056364125578

話者認識のための特徴ベクトル生成方法

発明者:
出願人/特許権者:
代理人 (1件): 柏木 明 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平7-292521
公開番号(公開出願番号):特開平8-235358
出願日: 1995年11月10日
公開日(公表日): 1996年09月13日
要約:
【要約】【課題】 話者の口唇の動きと正面から見た口腔との動的な視覚的観察から、認識のための他の増補的な観察と併せて利用できる特徴ベクトルを生成する。【解決手段】 話者認識方法には、発声に関連ある口の動きを表す視覚的画像表示が用いられ、音声データは用いられない。発声時に口唇間に形成される時空間的な口内側面積を表す時空間的な濃淡関数が生成され、この時空間的な濃淡関数から、必須情報を抽出するキューブロックが生成され、この必須情報から、認識に用いられる特徴ベクトルが生成される。特徴ベクトルには、発声の持続時間と最大口唇分離間隔と時間的な位置、又は開口時の口唇移動速度と閉口時の口唇移動速度と発声時に口唇間に形成される面積を表すとともに発声時に口腔を正面から見た時の面積を表す時空間面積測定値とが含まれる。実験データから、話者が異なると特徴空間におけるクラスタリングが異なることが判る。
請求項(抜粋):
個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、(a) 認識対象の人物による発声を観察するステップと、(b) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、(c) 前記キューから、(i) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、(iii) 上唇と下唇との間の開口セントロイドの位置と、を含む1組の特徴ベクトル成分を抽出するステップと、からなることを特徴とする話者認識のための特徴ベクトル生成方法。
引用特許:
審査官引用 (3件)
  • 個人認識装置
    公報種別:公開公報   出願番号:特願平5-000872   出願人:富士電機株式会社, 富士ファコム制御株式会社
  • 会話認識システム
    公報種別:公開公報   出願番号:特願平5-103842   出願人:株式会社リコー
  • 指示入力装置
    公報種別:公開公報   出願番号:特願平4-031804   出願人:株式会社東芝

前のページに戻る