特許
J-GLOBAL ID:200903002760014964

発話検出装置、方法及びプログラム

発明者:
出願人/特許権者:
代理人 (2件): 中島 淳 ,  加藤 和詳
公報種別:公開公報
出願番号(国際出願番号):特願2005-262751
公開番号(公開出願番号):特開2007-079624
出願日: 2005年09月09日
公開日(公表日): 2007年03月29日
要約:
【課題】 ノイズなどの突発的な要因に影響されることなく、高精度に話者の発話を検出する。【解決手段】 話者の画像から口唇パターンを切り出し(ステップ108)、口唇パターンf(t)と口唇包含パターンF(t-i)(i=1,2,・・・,N)との相関値を算出する(ステップ109)。そして、f(t)とF(t-i)とで最大となる相関値s_max(t,t-i)を算出し、iが1からNまでの相関値s_maxの和を口唇変動量E(t)として算出する(ステップ110)。口唇変動量E(t)が閾値以上(ステップ111の肯定判定)のときに発話区間と判定し(ステップ112)、口唇変動量E(t)が閾値未満(ステップ111の否定判定)のときに発話区間ではない(ステップ113)と判定する。【選択図】 図2
請求項(抜粋):
少なくとも話者の口唇を撮像する撮像手段と、 前記撮像手段により連続的に撮像された画像フレーム中において、前記口唇の形状を特定可能な口唇特徴領域を特定する口唇特徴領域特定手段と、 前記撮像手段により連続的に撮像された画像フレーム中において、前記口唇特徴領域によって形状を特定された口唇を包含する口唇包含領域を特定する口唇包含領域特定手段と、 前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴領域によって特定される口唇形状と、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含領域に含まれる口唇形状とを比較し、これらの相関値を算出する相関値算出手段と、 前記相関値算出手段の算出結果に基づいて前記口唇の変動量を算出する変動量算出手段と、 前記変動量算出手段により算出された変動量に基づいて発話区間であるか否かを検出する発話区間検出手段と、 を備えたことを特徴とする発話検出装置。
IPC (4件):
G06T 7/20 ,  G10L 11/02 ,  G10L 15/04 ,  G10L 15/24
FI (3件):
G06T7/20 300B ,  G10L3/00 513Z ,  G10L3/00 571Q
Fターム (8件):
5D015DD03 ,  5D015LL07 ,  5L096AA06 ,  5L096CA04 ,  5L096FA18 ,  5L096FA34 ,  5L096HA02 ,  5L096JA03
引用特許:
出願人引用 (1件)

前のページに戻る