特許
J-GLOBAL ID:200903004698804573

音声認識装置と音声認識方法

発明者:
出願人/特許権者:
代理人 (1件): 特許業務法人快友国際特許事務所
公報種別:公開公報
出願番号(国際出願番号):特願2006-020162
公開番号(公開出願番号):特開2007-199552
出願日: 2006年01月30日
公開日(公表日): 2007年08月09日
要約:
【課題】 対話者が話しかける自然な文章を短時間で正確に認識することが可能な技術を提供する。【解決手段】 音声を入力して音データに変換する音声入力手段と、対話者を繰り返し撮影して撮影された画像データを時刻と関連付ける撮像手段と、音データに基づいて音声入力開始時刻と音声入力終了時刻を検出する時刻検出手段と、音声入力開始時刻から音声入力終了時刻までの音データから文章データを作成する文章データ作成手段と、音声入力開始時刻から音声入力終了時刻までの画像データから対話者の発話状態を認識する発話状態認識手段と、対話者の発話状態から音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であるか否かを判断する発話区間判断手段と、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であると判断された場合に、文章データを出力する文章データ出力手段を備えている。【選択図】 図1
請求項(抜粋):
対話者が話しかける音声を文章として認識する装置であって、 音声を入力し、音データに変換する音声入力手段と、 対話者を繰り返し撮影し、撮影された画像データを時刻と関連付ける撮像手段と、 音データに基づいて音声入力開始時刻と音声入力終了時刻を検出する時刻検出手段と、 音声入力開始時刻から音声入力終了時刻までの音データから、文章データを作成する文章データ作成手段と、 音声入力開始時刻から音声入力終了時刻までの画像データから、対話者の発話状態を認識する発話状態認識手段と、 対話者の発話状態から、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であるか否かを判断する発話区間判断手段と、 音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であると判断された場合に、文章データを出力する文章データ出力手段と を備える音声認識装置。
IPC (3件):
G10L 15/24 ,  G10L 15/28 ,  G10L 15/04
FI (3件):
G10L15/24 Q ,  G10L15/28 230K ,  G10L15/04 300Z
Fターム (1件):
5D015LL00
引用特許:
出願人引用 (5件)
全件表示

前のページに戻る