特許
J-GLOBAL ID:201103073344059331
音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
発明者:
,
,
出願人/特許権者:
代理人 (2件):
恩田 博宣
, 恩田 誠
公報種別:公開公報
出願番号(国際出願番号):特願2009-205990
公開番号(公開出願番号):特開2011-059186
出願日: 2009年09月07日
公開日(公表日): 2011年03月24日
要約:
【課題】音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置を提供する。【解決手段】音声区間検出装置100は、音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1マルチモーダルVAD部131と、音響特徴量のみを用いて音声区間の判定を行う音声ユニモーダルVAD部132と、画像特徴量のみを用いて音声区間の判定を行う画像ユニモーダルVAD部133と、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133の判定を統合して、音声区間の判定を行う第2マルチモーダルVAD部134と、第1マルチモーダルVAD部131、第2マルチモーダルVAD部134の判定結果を多数決原理で統合して音声区間の判定を行う第3マルチモーダルVAD部135を備える。【選択図】図1
請求項(抜粋):
発話者の音声信号を入力して、ディジタル信号に変換する音声入力手段と、
前記発話者の口唇動画像を入力し、静止画像時系列(以下、画像フレームという)に変換する画像入力手段と、
前記音声入力手段が出力するディジタル化された音声信号から音声区間検出用の音響特徴量を抽出する音響特徴量抽出手段と、
前記画像フレームから音声区間検出用の画像特徴量を抽出する画像特徴量抽出手段と、
前記音声区間検出用の音響特徴量及び音声区間検出用の画像特徴量に基づいて音声区間判定を行う音声区間判定手段を備えた音声区間検出装置において、
前記音声区間判定手段は、
前記音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1判定手段と、
前記音響特徴量のみを用いて音声区間の判定を行う第2判定手段と、
前記画像特徴量のみを用いて音声区間の判定を行う第3判定手段と、
第2判定手段及び第3判定手段の判定を統合して、音声区間の判定を行う第4判定手段と、
前記第1乃至第4判定手段のうち、少なくとも第1、第4判定手段の判定結果を多数決原理で統合して音声区間の判定を行う第5判定手段を含むことを特徴とする音声区間検出装置。
IPC (3件):
G10L 15/04
, G10L 15/24
, G10L 11/02
FI (3件):
G10L15/04 300Z
, G10L15/24 Q
, G10L11/02
Fターム (2件):
前のページに戻る