特許
J-GLOBAL ID:201103042291411019

情報処理装置、情報処理方法、およびプログラム

発明者:
出願人/特許権者:
代理人 (2件): 稲本 義雄 ,  西川 孝
公報種別:公開公報
出願番号(国際出願番号):特願2009-154923
公開番号(公開出願番号):特開2011-013731
出願日: 2009年06月30日
公開日(公表日): 2011年01月20日
要約:
【課題】動画像を用いた読唇技術において、不特定話者の発話内容を高い精度で認識する。【解決手段】発話認識装置10は、学習処理を実行する学習系11、登録処理を行う登録系12、および認識処理を行う認識系13から構成される。学習系11では、口形素ラベルが付加された唇画像を学習サンプルとし、入力された唇画像に対応する口形素を判別する口形素判別器31が生成される。登録系12では、登録用発話単語を話す話者の唇の動きに対応する時系列特徴量が生成されてモデル化されて登録される。認識系13では、話者の動画像から時系列特徴量が生成されて、登録されているモデルと比較され、発話内容が認識される。本発明は、話者をビデオ撮影した動画像から、その発話内容を認識する場合に適用することができる。【選択図】図1
請求項(抜粋):
時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、 前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、 登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、 不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段と を含む情報処理装置。
IPC (3件):
G06T 7/20 ,  G06T 1/00 ,  G10L 15/24
FI (3件):
G06T7/20 300B ,  G06T1/00 340A ,  G10L15/24 Q
Fターム (16件):
5B057BA04 ,  5B057CA19 ,  5B057DA08 ,  5B057DC05 ,  5B057DC09 ,  5B057DC32 ,  5B057DC40 ,  5D015LL07 ,  5L096BA16 ,  5L096CA04 ,  5L096FA09 ,  5L096FA70 ,  5L096HA02 ,  5L096HA09 ,  5L096KA04 ,  5L096MA07

前のページに戻る