Pat
J-GLOBAL ID:200903014062077871
音声認識装置、話者検出装置及び画像記録装置
Inventor:
,
Applicant, Patent owner:
Agent (1):
蔵合 正博
Gazette classification:公開公報
Application number (International application number):1998079916
Publication number (International publication number):1999282492
Application date: Mar. 26, 1998
Publication date: Oct. 15, 1999
Summary:
【要約】【課題】 複数の話者に対して、信頼性の高い音声認識を実現する。【解決手段】 音声信号入力部1と、映像信号入力部2と、複数話者の音声から共通する特徴を抽出して標準パターンを作成し入力音声と標準音声パターンとの類似度を算出する不特定話者音声認識部3と、予め登録された話者の音声と入力音声との類似度を算出する特定話者音声認識部3と、入力映像から顔領域を抽出する顔領域抽出部9と、複数特定話者の顔画像データと話者識別番号とを記録する顔画像データベース11と、顔領域抽出部9と顔画像データベース11から入力する画像データとの類似度を出力する画像比較部10と、不特定話者音声認識部3、特定話者音声認識部4、及び画像比較部10の出力から統合的類似度を算出し認識結果を出力する認識結果統合部5とで構成される。
Claim (excerpt):
話者の特徴的外観の画像を含む映像データを入力する映像入力手段と、 話者の音声データを入力する音声入力手段と、複数の特定の話者の音声データを、それを特定できる話者識別情報とともに登録し、登録された音声データと入力音声データとの類似度を算出して音声認識を行う特定話者音声認識手段と、不特定多数の話者の音声データから共通する特徴を抽出して標準パターンを作成、登録して、音声標準パターンと入力音声データとの類似度を算出して音声認識を行う不特定話者音声認識手段と、複数の話者の特徴的外観の画像を、その話者を特定できる話者識別情報とともに登録し、登録された画像データと前記映像データに含まれる話者の画像データとの類似度を算出する画像認識手段と、特定話者音声認識手段の出力と不特定話者音声認識手段からの出力と画像認識手段からの出力とを統合して、音声認識結果として単語等を出力する認識結果統合手段とを備えた音声認識装置。
IPC (6):
G10L 3/00 571
, G10L 3/00 513
, G10L 3/00 531
, G10L 3/00
, G06T 1/00
, G10L 5/06
FI (6):
G10L 3/00 571 G
, G10L 3/00 513 Z
, G10L 3/00 531 J
, G10L 3/00 531 K
, G10L 5/06 D
, G06F 15/62 380
Patent cited by the Patent:
Cited by examiner (3)
-
音声認識装置
Gazette classification:公開公報
Application number:特願平6-202872
Applicant:株式会社エクォス・リサーチ
-
特開平1-191200
-
特開昭63-032596
Return to Previous Page