特許
J-GLOBAL ID:200903069768754905
マルチモーダル情報統合解析装置
発明者:
,
,
,
出願人/特許権者:
代理人 (1件):
青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平7-267000
公開番号(公開出願番号):特開平9-114634
出願日: 1995年10月16日
公開日(公表日): 1997年05月02日
要約:
【要約】【課題】 人間の発話する音声と人間のジェスチャとを統合的に解析を行って解析結果を出力することができるマルチモーダル情報統合解析装置を提供する。【解決手段】 音声認識部11は発話音声を音声認識して音声認識結果とそれに対応する時刻を出力し、言語解析部12は言語に関する知識を用いて言語解析して音声認識結果の意味構造と対応する時刻とを出力する。GUI制御部13は入力されたジェスチャの軌跡の画面上の位置と対応する時刻とを出力し、ジェスチャ解析部14はGUI制御部13からの情報に対して複数の指示物候補を含む図に関する知識を用いて解析してジェスチャの種類とそれに対応する時刻と、ジェスチャによって指示される指示物候補である指示物とを出力する。統合解析部15は、検索したジェスチャに対応する語又は句と指示物との時間的関係を検出し、音声認識結果の意味構造とジェスチャの種類の意味構造とが統合された意味構造を生成する。
請求項(抜粋):
所定の基準時刻からの経過した時刻情報を出力する計時手段と、上記計時手段から出力される時刻情報に基づいて、入力された発話音声を音声認識して、音声認識結果を、上記音声認識結果に対応する時刻情報とともに出力する音声認識手段と、上記音声認識手段から出力される音声認識結果とそれに対応する時刻情報とに基づいて、所定の言語に関する知識を用いて言語解析して、上記音声認識結果の意味構造を、それに対応する時刻情報とともに出力する言語解析手段と、複数の指示物候補を含む図を画面上に表示し、上記表示した画面上で人間のジェスチャを入力するための入力手段と、上記計時手段から出力される時刻情報に基づいて、上記入力手段を介して入力されたジェスチャの軌跡の画面上の位置と、それに対応する時刻情報とともに出力するインターフェース制御手段と、上記インターフェース制御手段から出力されるジェスチャの軌跡の画面上の位置に対して、上記複数の指示物候補を含む図に関する知識を用いて解析することにより、上記ジェスチャの種類と、それに対応する時刻情報と、上記複数の指示物候補のうち上記ジェスチャによって指示される指示物候補である指示物の情報とを出力するジェスチャ解析手段と、上記言語解析手段から出力される上記音声認識結果の意味構造とそれに対応する時刻情報と、上記ジェスチャ解析手段から出力される上記ジェスチャの種類とそれに対応する時刻情報と上記指示物の情報とに基づいて、上記音声認識結果の意味構造から上記ジェスチャに対応する語又は句を検索し、検索された上記ジェスチャに対応する語又は句と、上記指示物の情報との時間的関係を検出し、検出された時間的関係に基づいて、上記音声認識結果の意味構造と上記ジェスチャの種類の意味構造とが統合された意味構造を生成して出力する統合解析手段とを備えたことを特徴とするマルチモーダル情報統合解析装置。
IPC (6件):
G06F 3/16 320
, G06F 3/023
, G06F 17/28
, G06T 11/80
, G10L 3/00
, G10L 3/00 571
FI (7件):
G06F 3/16 320 A
, G06F 3/023
, G10L 3/00 Q
, G10L 3/00 571 G
, G10L 3/00 571 H
, G06F 15/38 Z
, G06F 15/62 322 M
引用特許:
審査官引用 (1件)
-
情報処理装置
公報種別:公開公報
出願番号:特願平6-199237
出願人:株式会社日立製作所
前のページに戻る