特許
J-GLOBAL ID:200903032157203465

情報処理装置および方法、プログラム、並びに記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 稲本 義雄
公報種別:公開公報
出願番号(国際出願番号):特願2004-084814
公開番号(公開出願番号):特開2005-274707
出願日: 2004年03月23日
公開日(公表日): 2005年10月06日
要約:
【課題】発話から話者を精度よく識別する。【解決手段】 カメラモジュール2は、1以上の話者を撮像し、画像データを顔検出部121に出力する。顔検出部121は、画像データのうちの話者の顔に対応する領域の顔画像データを検出し、話者のいる方位、即ち、話者方位を検出する。ビーム幅算出部122は、話者方位から得られる話者同士の位置関係に基づいて、話者それぞれのビームフォーミング幅を算出する。ビームフォーミング処理部143は、マイクアレイ3(マイク3-1乃至3-4)からの音声データを、所定の話者方位とビームフォーミング幅とに基づいてビームフォーミングする。本発明は、例えば、話者識別を行う話者識別装置に適用することができる。【選択図】図4
請求項(抜粋):
1以上の話者を撮像し、画像を出力する撮像手段と、 前記撮像手段が出力する画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段と、 前記話者による発話の音声データのうちの、前記抽出範囲算出手段により算出された前記抽出範囲内の音声データを抽出する音声データ抽出手段と を備えることを特徴とする情報処理装置。
IPC (4件):
G10L15/28 ,  G06T7/60 ,  G10L17/00 ,  H04N7/15
FI (4件):
G10L3/00 511 ,  G06T7/60 150P ,  H04N7/15 630Z ,  G10L3/00 545A
Fターム (11件):
5C064AA02 ,  5C064AC02 ,  5C064AC04 ,  5C064AC06 ,  5C064AC09 ,  5D015AA03 ,  5D015DD02 ,  5L096BA18 ,  5L096CA02 ,  5L096FA02 ,  5L096FA67
引用特許:
出願人引用 (2件) 審査官引用 (3件)

前のページに戻る