Pat
J-GLOBAL ID:200903044013985157
話者認識方法及びその実行装置並びに音声発生確認方法及び装置
Inventor:
,
,
,
,
,
Applicant, Patent owner:
Agent (1):
坂口 博 (外2名)
Gazette classification:公開公報
Application number (International application number):2000223574
Publication number (International publication number):2001092974
Application date: Jul. 25, 2000
Publication date: Apr. 06, 2001
Summary:
【要約】 (修正有)【課題】 認識課程の間に、視覚情報を対応する音声情報と一緒に使用し、音響的な悪化条件下でも話者認識情度を改善する方法及び装置を提供する。【解決手段】 ビデオ圧縮ソース2からの信号は、デマルチプレクサ8により、映像・音声データは夫々10及び12の伸張器を経て、映像は話者顔細分化モジュール20から視覚的発話フィーチャ抽出器22へ、音声は音声フィーチャ抽出器14に行く。カメラ4やマイクロフォン6から直接に各抽出器へのデータ授受も可能である。映像(音声)データは顔認識モジュール24(音声話者認識モジュール16)から信頼度推定ブロック26(18)を経て識別/確認結合モジュール30でスコア結合技術を用い話者決定をする。又、抽出器22と14の入力に基く発声確認モジュール28の出力とからモジュール32で最終決定を下す。なお、決定方法にはフィーチャ結合、再スコア等の他の技法を用いてもよい。
Claim (excerpt):
話者認識を実行する方法であって、任意の内容ビデオ・ソースに関連付けられるビデオ信号を処理するステップと、ビデオ信号に関連付けられる音声信号を処理するステップと、処理された音声信号及び処理されたビデオ信号にもとづき、識別決定及び確認決定の少なくとも一方を下すステップとを含む方法。
IPC (2):
FI (2):
G06T 7/00 P
, G10L 3/00 545 F
Patent cited by the Patent:
Cited by examiner (2)
-
マルチメディア会議装置
Gazette classification:公開公報
Application number:特願平6-018578
Applicant:株式会社東芝, 日本電信電話株式会社
-
個人からの音声および映像データを認証のために利用する方法および装置
Gazette classification:公開公報
Application number:特願平8-332609
Applicant:エイ・ティ・アンド・ティ・コーポレーション
Return to Previous Page