特許
J-GLOBAL ID:201103072385305812

発話認識装置、発話認識方法

発明者:
出願人/特許権者:
代理人 (6件): 志賀 正武 ,  高橋 詔男 ,  佐伯 義文 ,  鈴木 三義 ,  西 和哉 ,  村山 靖彦
公報種別:公開公報
出願番号(国際出願番号):特願2010-056266
公開番号(公開出願番号):特開2011-191423
出願日: 2010年03月12日
公開日(公表日): 2011年09月29日
要約:
【課題】精度良く発話区間の検出を行い、発話認識を行える発話認識装置、発話認識方法を提供することを課題としている。【解決手段】音響を集音する音響集音部と、映像を撮像する映像撮像部と、集音された音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部と、撮像された画像情報に基づき顔領域の特徴量と唇領域の特徴量を抽出する唇特徴量抽出部と、抽出された唇領域の特徴量に基づき唇の横方向の長さに関する視覚特徴量を抽出し、抽出された所定区間の視覚特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部と、生成された視覚特徴量と抽出された音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部と、発話区間検出部が検出した発話区間の発話を認識する音声認識部とを備える。【選択図】図1
請求項(抜粋):
音響を集音する音響集音部と、 映像を撮像する映像撮像部と、 前記音響集音部が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部と、 前記映像撮像部が撮像した画像情報に基づき唇領域の特徴量を抽出する唇特徴量抽出部と、 前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する前記特徴量を抽出し、抽出した所定区間の前記唇の横方向の長さに関する特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部と、 前記生成された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部と、 前記発話区間検出部が検出した発話区間の発話を認識する音声認識部と、 を備えることを特徴とする発話認識装置。
IPC (3件):
G10L 15/04 ,  G10L 15/24 ,  G06T 7/20
FI (3件):
G10L15/04 300Z ,  G10L15/24 Q ,  G06T7/20 300B
Fターム (8件):
5D015DD03 ,  5L096AA06 ,  5L096BA08 ,  5L096BA18 ,  5L096CA05 ,  5L096FA09 ,  5L096FA64 ,  5L096HA02
引用特許:
審査官引用 (4件)
全件表示
引用文献:
審査官引用 (2件)
  • マルチモーダルVADにおける複数特徴量の統合法に関する検討
  • Juliusにおける入力の無音区間・休止の扱い, 20070308

前のページに戻る