話者認識方法及びその実行装置並びに音声発生確認方法及び装置

発明者： , , , , ,
出願人/特許権者：
代理人 (1件)：坂口博 (外2名)
公報種別：公開公報
出願番号（国際出願番号）：特願2000-223574
公開番号（公開出願番号）：特開2001-092974
出願日： 2000年07月25日
公開日（公表日）： 2001年04月06日
要約：

【要約】 (修正有)【課題】認識課程の間に、視覚情報を対応する音声情報と一緒に使用し、音響的な悪化条件下でも話者認識情度を改善する方法及び装置を提供する。【解決手段】ビデオ圧縮ソース2からの信号は、デマルチプレクサ8により、映像・音声データは夫々10及び12の伸張器を経て、映像は話者顔細分化モジュール20から視覚的発話フィーチャ抽出器22へ、音声は音声フィーチャ抽出器14に行く。カメラ4やマイクロフォン6から直接に各抽出器へのデータ授受も可能である。映像(音声)データは顔認識モジュール24(音声話者認識モジュール16)から信頼度推定ブロック26(18)を経て識別/確認結合モジュール30でスコア結合技術を用い話者決定をする。又、抽出器22と14の入力に基く発声確認モジュール28の出力とからモジュール32で最終決定を下す。なお、決定方法にはフィーチャ結合、再スコア等の他の技法を用いてもよい。

請求項（抜粋）：

話者認識を実行する方法であって、任意の内容ビデオ・ソースに関連付けられるビデオ信号を処理するステップと、ビデオ信号に関連付けられる音声信号を処理するステップと、処理された音声信号及び処理されたビデオ信号にもとづき、識別決定及び確認決定の少なくとも一方を下すステップとを含む方法。

IPC (2件)：

G06T 7/00 , G10L 17/00

FI (2件)：

G06T 7/00 P , G10L 3/00 545 F

引用特許：

審査官引用 (2件)

マルチメディア会議装置
公報種別：公開公報出願番号：特願平6-018578 出願人：株式会社東芝, 日本電信電話株式会社
個人からの音声および映像データを認証のために利用する方法および装置
公報種別：公開公報出願番号：特願平8-332609 出願人：エイ・ティ・アンド・ティ・コーポレーション

前のページに戻る