特許
J-GLOBAL ID:200903053863176095
音声翻訳システム
発明者:
,
,
,
出願人/特許権者:
代理人 (1件):
青山 葆 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-324063
公開番号(公開出願番号):特開2002-135642
出願日: 2000年10月24日
公開日(公表日): 2002年05月10日
要約:
【要約】【課題】 発話者の方向を推定し、CCDカメラなどの撮像手段の撮像方向を発話者に向け、発話者の映像を見ながら発話者の発話内容の翻訳された音声を聞くことができる音声翻訳システムを提供する。【解決手段】 マイクロホンアレー10を用いて発話者の方向を方向推定部13により推定し、その方向にビームフォーミング部14によりマイクロホンアレー10の指向性を制御して音声を受音する。同時に、回転機構制御部32により発話者の方向にCCDカメラ30の撮像方向を制御し発話者の画像を抽出してCRTディスプレイ34に表示する。次に、受音した音声を音声認識部16により音声認識を行い、音声認識結果に対して音声翻訳部17により音声翻訳を行い、音声翻訳結果を音声合成部18により音声合成して、音声結果の音声信号をスピーカ20から出力する。これにより、発話者の画像と発話音声の翻訳された合成音声を遠隔地でリアルタイムに出力して視聴できる。
請求項(抜粋):
発話者が発話する音声を受信する複数のマイクロホンを所定の間隔で並置してなるマイクロホンアレーと、上記各マイクロホンから出力される電気信号に基づいて上記マイクロホンアレーで受信される音声を発話する発話者の方位角を推定する推定手段と、上記推定手段により推定された発話者の方位角の方向に対応するビーム信号を生成するビームフォーミング手段と、上記ビームフォーミング手段によって生成されたビーム信号に対して音声認識を行って音声認識結果を出力する音声認識手段と、上記音声認識結果に対して音声翻訳を行って異なる言語の翻訳文の文字列情報を出力する音声翻訳手段と、上記翻訳文の文字列情報に対して音声合成を行って音声合成結果の音声信号を出力する音声合成手段と、上記発話者を撮像して映像信号を出力する撮像手段と、上記推定手段により推定された発話者の方位角の方向に基づいて、当該発話者の方位角の方向に上記撮像手段の撮像方向を向ける方向制御手段とを備えたことを特徴とする音声翻訳システム。
IPC (7件):
H04N 5/232
, G06F 17/28
, G10L 13/00
, G10L 15/28
, G10L 15/00
, H04N 7/15 630
, G01S 3/802
FI (7件):
H04N 5/232 C
, G06F 17/28 V
, H04N 7/15 630 A
, G01S 3/802
, G10L 3/00 R
, G10L 3/00 511
, G10L 3/00 551 C
Fターム (23件):
5B091CB12
, 5B091CB32
, 5B091CD03
, 5B091CD15
, 5C022AB63
, 5C064AA06
, 5C064AB04
, 5C064AC09
, 5C064AC13
, 5C064AD03
, 5C064AD13
, 5D015AA01
, 5D015AA05
, 5D015BB01
, 5D015DD02
, 5D015KK01
, 5D015KK04
, 5D015LL06
, 5D015LL12
, 5D045AB03
, 5J083AA05
, 5J083AD17
, 5J083BC01
引用特許:
前のページに戻る