Pat
J-GLOBAL ID:200903029378416241

情報処理装置

Inventor:
Applicant, Patent owner:
Agent (1): 大塚 康徳 (外2名)
Gazette classification:公開公報
Application number (International application number):2000086807
Publication number (International publication number):2000352996
Application date: Mar. 27, 2000
Publication date: Dec. 19, 2000
Summary:
【要約】 (修正有)【課題】 複数台のカメラからの、会議中の複数の人物の動きを示す画像データと、音声データとをコンピュータ処理装置により処理して、データを会議アーカイブデータベースにアーカイブする。【解決手段】 画像データを処理して、大半の人物が誰を見ているかを判定することにより、あるいは、音声データを処理して、どの人物の頭部が音声の来た方向に対応する位置にあるかを判定することにより、誰が話しているかを判定する。話している人物個人の音声認識パラメータを選択し、それを使用して音声データをテキストデータに変換する。話者と、参加者とを最も良く示すカメラを選択することにより、アーカイブすべき画像データを選択する。画像データ、音声データ、テキストデータ及び各人物が誰を見ているかを定義するデータを会議アーカイブデータベースに格納する。
Claim (excerpt):
画像データ及び音声データを処理する装置であって、少なくとも1台のカメラにより記録され且つ複数の人物の動きを示す画像データを処理して、各人物を三次元で追跡する画像処理手段と、音声データを処理して、音声の到達方向を判定する音声処理手段と、画像処理手段により実行される処理の結果と、音声処理手段により実行される処理の結果とに基づいて、どの人物が話しているかを判定する話者識別手段と、受信した音声データを処理して、話者識別手段により実行される処理の結果に従って音声データからテキストデータを生成する音声認識処理手段とを備えることを特徴とする装置。
IPC (5):
G10L 17/00 ,  G06F 3/16 320 ,  G06F 17/30 170 ,  G10L 15/00 ,  G10L 15/24
FI (5):
G10L 3/00 545 F ,  G06F 3/16 320 H ,  G06F 17/30 170 B ,  G10L 3/00 551 B ,  G10L 3/00 571 Q

Return to Previous Page