特許
J-GLOBAL ID:200903020577825692

発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム

発明者:
出願人/特許権者:
代理人 (1件): 田澤 博昭 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-150614
公開番号(公開出願番号):特開2000-338987
出願日: 1999年05月28日
公開日(公表日): 2000年12月08日
要約:
【要約】【課題】 他の人の発話やオーディオ機器などから流れる音が存在する環境で、意図する人が発話をしているかどうかを、精度良く短時間で簡便に発話者に余計な負担をかけずに判定することができない。【解決手段】 対象者撮影部2による対象者1の画像から唇の変形度を自動的に求めると共に、音収録部3による音声から音声の包絡線を自動的に求め、それら唇の変形度と音声の包絡線との時系列変化パターンの類似度を時系列パターンマッチング部8により求めることによって発話者の同定を行うことにより、対象者1に余計な負担をかけることなく、情報処理負荷を小さく、かつ同定率を良く発話者の同定を行うことができる。
請求項(抜粋):
発話を検出したい対象者の唇部分の画像を撮影する唇部画像撮影手段と、上記唇部画像撮影手段により撮影された画像から唇の動きの時系列変化データを求める唇運動時系列データ計算手段と、環境音から音声を抽出する音声抽出手段と、上記音声抽出手段により抽出された音声の時系列変化データを求める音声時系列データ計算手段と、上記唇運動時系列データ計算手段によって求められた唇の動きの時系列変化データと上記音声時系列データ計算手段によって求められた音声の時系列変化データとの時間変化を伴う類似度を求める時間変化類似度計算手段と、予め発話開始に応じた言葉の唇の動きの時系列変化データおよび音声の時系列変化データが記憶され、上記唇運動時系列データ計算手段によって、求められた唇の動きの時系列変化データ及び上記音声時系列データ計算手段によって求められた音声の時系列変化データがその記憶された発話開始に応じた言葉と一致し、かつ上記時間変化類似度計算手段によって求められた類似度が所定値以上の時に、これから発話が開始されることを認識する発話開始認識手段とを備えた発話開始監視装置。
IPC (4件):
G10L 11/02 ,  G10L 15/04 ,  G10L 17/00 ,  G10L 15/24
FI (4件):
G10L 3/00 513 B ,  G10L 3/00 513 C ,  G10L 3/00 545 F ,  G10L 3/00 571 Q
Fターム (8件):
5D015AA03 ,  5D015DD03 ,  5D015HH01 ,  5D015HH04 ,  5D015LL07 ,  9A001GG05 ,  9A001HH16 ,  9A001HH21

前のページに戻る