特許
J-GLOBAL ID:200903078683854454

情報処理装置

発明者:
出願人/特許権者:
代理人 (1件): 井上 学
公報種別:公開公報
出願番号(国際出願番号):特願2005-274885
公開番号(公開出願番号):特開2007-088803
出願日: 2005年09月22日
公開日(公表日): 2007年04月05日
要約:
【課題】地上波放送や衛星放送などのテレビ番組のシーンの中からユーザーが興味を持ったシーンを特定する場合、視線、瞳孔、瞬目等の表情に関わる感性情報だけでは、ユーザーが興味を持ったシーンを抽出するには不十分であるという課題がある。【解決手段】 本発明のメディア処理装置では、画像取得部で取得した画像情報をもとに、ユーザー検出を行い、ユーザーの顔位置を推定する。またマイクロホンアレイで収録した音データより、音声区間の検出を行う。検出した音声区間の音源方向と顔位置とが一致した場合に、発話対象物がメディア処理装置であるとみなす。そしてその音声区間の発話をユーザーがメディア処理装置に表示される映像に対し、興味を持ったために発した発話であると判断し、音声区間と同じ時間の映像区間をユーザーが興味を持った映像区間であると判断する。【選択図】 図2
請求項(抜粋):
カメラを介して映像を取得する画像取得部と、 マイクを介して音を取得する音声取得部と、 上記画像からユーザの正面顔を検出する顔位置推定部と、 該正面顔の位置を推定する顔位置推定部と、 上記取得された音からユーザの発声を検出する音声検出部と、 上記検出された音の音源方向を推定する音声位置推定部と、 上記推定された顔位置と上記音源方向とが所定範囲であるかを判定し、その顔又は音検出の時刻に表示部に表示されていたコンテンツに該所定範囲内である旨の判定結果をラベリングするラベリングと、 上記ラベリング結果を記録する記録部とを有することを特徴とする情報処理装置。
IPC (6件):
H04N 17/00 ,  G10L 15/28 ,  G10L 15/00 ,  G10L 15/24 ,  G06T 1/00 ,  H04N 7/173
FI (6件):
H04N17/00 Z ,  G10L3/00 511 ,  G10L3/00 551G ,  G10L3/00 571Q ,  G06T1/00 340A ,  H04N7/173 630
Fターム (20件):
5B057AA19 ,  5B057BA02 ,  5B057CA12 ,  5B057CA16 ,  5B057DA07 ,  5B057DB02 ,  5B057DC08 ,  5C061BB06 ,  5C061CC09 ,  5C164UA22S ,  5C164UA42S ,  5C164UB31S ,  5C164UB37S ,  5C164UB41P ,  5C164YA08 ,  5C164YA09 ,  5C164YA10 ,  5D015DD02 ,  5D015KK01 ,  5D015LL07
引用特許:
出願人引用 (2件)

前のページに戻る