特許
J-GLOBAL ID:201003093622746500
映像音声処理装置、映像音声処理方法、映像音声処理プログラム
発明者:
,
,
,
,
,
出願人/特許権者:
代理人 (3件):
中尾 直樹
, 草野 卓
, 中村 幸雄
公報種別:公開公報
出願番号(国際出願番号):特願2009-033169
公開番号(公開出願番号):特開2010-191544
出願日: 2009年02月16日
公開日(公表日): 2010年09月02日
要約:
【課題】視聴者が会話の構造等を理解しやすくし、自動的に仮想空間映像の視点が切り替わっていくようにするという課題がある。【解決手段】本発明の映像音声処理技術は、観測装置から得られる映像を用いて、会話参加者の顔の位置及び姿勢、視線方向を推定する。観測装置から得られる音声を用いて、発話の有無及び到来方向を推定する。顔の位置、視線方向、発話の有無及び到来方向を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、仮想カメラの視点を制御する制御パラメータを求める。会話参加者画像を部分平面に射影し、部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に配置し、制御パラメータを用いて、仮想カメラの視点の仮想空間映像を生成する。【選択図】図4
請求項(抜粋):
観測装置から得られる映像及び音声を用いて、3次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理装置であって、
前記映像を用いて、パノラマ画像を生成し、該パノラマ画像から会話参加者の顔の位置及び姿勢を推定する顔位置姿勢推定手段と、
前記顔の位置及び姿勢から視線方向を推定する視線方向推定手段と、
前記音声を用いて、発話の有無及び到来方向を推定する発話推定手段と、
前記顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する会話状態推定手段と、
前記会話状態のうち少なくとも一部を用いて、前記仮想空間上のカメラ(以下「仮想カメラ」という)の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、該方位角及び前記注視度を用いて、前記仮想カメラの視点を制御する制御パラメータを求める仮想カメラ視点制御手段と、
前記パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、該部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、該水平面と前記部分平面が所定の角度γを成すように配置し、前記制御パラメータを用いて、前記仮想カメラの視点を制御し、該視点における仮想空間映像を生成する仮想空間映像生成手段と、
を有することを特徴とする映像音声処理装置。
IPC (5件):
G06F 3/048
, H04N 7/18
, G06T 17/40
, G06F 3/14
, G06F 3/16
FI (5件):
G06F3/048 651A
, H04N7/18 U
, G06T17/40 A
, G06F3/14 360A
, G06F3/16 330B
Fターム (28件):
5B050AA09
, 5B050BA09
, 5B050BA12
, 5B050BA15
, 5B050EA05
, 5B050EA12
, 5B050EA19
, 5B050FA02
, 5B069CA02
, 5B069HA19
, 5B069LA03
, 5C054CC05
, 5C054EA01
, 5C054FC12
, 5C054FD03
, 5C054FD07
, 5C054FE01
, 5C054FE19
, 5C054FE25
, 5C054FE26
, 5C054FF03
, 5C054GB06
, 5C054HA17
, 5E501AB20
, 5E501AC15
, 5E501AC37
, 5E501FA14
, 5E501FA15
引用特許:
出願人引用 (5件)
-
テレビカメラ装置
公報種別:公開公報
出願番号:特願平10-128836
出願人:富士通株式会社
-
会話構造推定方法
公報種別:公開公報
出願番号:特願2005-164395
出願人:日本電信電話株式会社
-
テレビ会議システム
公報種別:公開公報
出願番号:特願平7-224931
出願人:日本電気エンジニアリング株式会社
全件表示
前のページに戻る