特許
J-GLOBAL ID:200903014062077871

音声認識装置、話者検出装置及び画像記録装置

発明者:
出願人/特許権者:
代理人 (1件): 蔵合 正博
公報種別:公開公報
出願番号(国際出願番号):特願平10-079916
公開番号(公開出願番号):特開平11-282492
出願日: 1998年03月26日
公開日(公表日): 1999年10月15日
要約:
【要約】【課題】 複数の話者に対して、信頼性の高い音声認識を実現する。【解決手段】 音声信号入力部1と、映像信号入力部2と、複数話者の音声から共通する特徴を抽出して標準パターンを作成し入力音声と標準音声パターンとの類似度を算出する不特定話者音声認識部3と、予め登録された話者の音声と入力音声との類似度を算出する特定話者音声認識部3と、入力映像から顔領域を抽出する顔領域抽出部9と、複数特定話者の顔画像データと話者識別番号とを記録する顔画像データベース11と、顔領域抽出部9と顔画像データベース11から入力する画像データとの類似度を出力する画像比較部10と、不特定話者音声認識部3、特定話者音声認識部4、及び画像比較部10の出力から統合的類似度を算出し認識結果を出力する認識結果統合部5とで構成される。
請求項(抜粋):
話者の特徴的外観の画像を含む映像データを入力する映像入力手段と、 話者の音声データを入力する音声入力手段と、複数の特定の話者の音声データを、それを特定できる話者識別情報とともに登録し、登録された音声データと入力音声データとの類似度を算出して音声認識を行う特定話者音声認識手段と、不特定多数の話者の音声データから共通する特徴を抽出して標準パターンを作成、登録して、音声標準パターンと入力音声データとの類似度を算出して音声認識を行う不特定話者音声認識手段と、複数の話者の特徴的外観の画像を、その話者を特定できる話者識別情報とともに登録し、登録された画像データと前記映像データに含まれる話者の画像データとの類似度を算出する画像認識手段と、特定話者音声認識手段の出力と不特定話者音声認識手段からの出力と画像認識手段からの出力とを統合して、音声認識結果として単語等を出力する認識結果統合手段とを備えた音声認識装置。
IPC (6件):
G10L 3/00 571 ,  G10L 3/00 513 ,  G10L 3/00 531 ,  G10L 3/00 ,  G06T 1/00 ,  G10L 5/06
FI (6件):
G10L 3/00 571 G ,  G10L 3/00 513 Z ,  G10L 3/00 531 J ,  G10L 3/00 531 K ,  G10L 5/06 D ,  G06F 15/62 380
引用特許:
審査官引用 (3件)
  • 音声認識装置
    公報種別:公開公報   出願番号:特願平6-202872   出願人:株式会社エクォス・リサーチ
  • 特開平1-191200
  • 特開昭63-032596

前のページに戻る