特許
J-GLOBAL ID:200903013283190501

音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法

発明者:
出願人/特許権者:
代理人 (1件): 谷 義一 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-234611
公開番号(公開出願番号):特開平11-073297
出願日: 1997年08月29日
公開日(公表日): 1999年03月16日
要約:
【要約】【課題】 ジェスチャの意味を示す音声とその音声とともに行われたジェスチャの対応付けを行う。【解決手段】 動画像に基づき動作の停止位置T1〜T3を検出する。また、音声を単語認識し、その単語の発声開始および終了位置T11、T12を検出する。発声開始および終了位置T11,T12に最も近い停止位置T1、T2をジェスチャ開始および終了位置とし、開始および終了位置T1,T2,T11,T12により音声とジェスチャを対応づける。
請求項(抜粋):
ジェスチャ内容を示す音声を伴うジェスチャを認識する認識方法において、前記音声に対して単語認識を施し、前記単語認識において、単語の発声開始時点および発声終了時点をそれぞれ検出し、ジェスチャを撮影した動画像に基づき該ジェスチャの動作が停止する停止時点を検出し、当該検出した停止時点の中で、前記発声開始時点および発声終了時点にそれぞれ最も近い停止時点を検出することによりジェスチャと対応の音声とを関連付けることを特徴とする認識方法。
IPC (6件):
G06F 3/16 320 ,  G06F 3/16 ,  G06F 3/03 380 ,  G06F 3/033 310 ,  G06T 1/00 ,  G10L 3/00 571
FI (6件):
G06F 3/16 320 F ,  G06F 3/16 320 A ,  G06F 3/03 380 Q ,  G06F 3/033 310 Y ,  G10L 3/00 571 G ,  G06F 15/62 380
引用特許:
審査官引用 (2件)
  • 統合認識対話装置
    公報種別:公開公報   出願番号:特願平7-038581   出願人:シャープ株式会社, 技術研究組合新情報処理開発機構
  • 動画像処理システム
    公報種別:公開公報   出願番号:特願平7-255939   出願人:株式会社日立製作所, 技術研究組合新情報処理開発機構

前のページに戻る