特許
J-GLOBAL ID:202003000384170734

情報処理装置、発話認識システム及び発話認識プログラム

発明者:
出願人/特許権者:
代理人 (2件): 伊東 忠重 ,  伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願2019-019139
公開番号(公開出願番号):特開2020-126492
出願日: 2019年02月05日
公開日(公表日): 2020年08月20日
要約:
【課題】発話内容の認識精度を向上させることを目的とする。【解決手段】撮像装置によって撮像された動画データが入力される入力部と、前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、前記発話内容の認識結果を出力する出力部と、を有する。【選択図】図4
請求項(抜粋):
撮像装置によって撮像された動画データが入力される入力部と、 前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、 前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、 選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、 前記発話内容の認識結果を出力する出力部と、を有する情報処理装置。
IPC (4件):
G06T 7/20 ,  G10L 15/25 ,  G06F 3/01 ,  G06T 7/00
FI (4件):
G06T7/20 300Z ,  G10L15/25 ,  G06F3/01 510 ,  G06T7/00 350B
Fターム (30件):
5E555AA04 ,  5E555AA47 ,  5E555BA01 ,  5E555BA87 ,  5E555BA88 ,  5E555BB02 ,  5E555BB18 ,  5E555BC04 ,  5E555BC18 ,  5E555CA42 ,  5E555CA47 ,  5E555CB64 ,  5E555CB66 ,  5E555CB74 ,  5E555CB80 ,  5E555CC01 ,  5E555EA05 ,  5E555EA23 ,  5E555FA00 ,  5L096AA02 ,  5L096BA08 ,  5L096BA18 ,  5L096CA04 ,  5L096EA35 ,  5L096FA32 ,  5L096FA54 ,  5L096FA64 ,  5L096FA67 ,  5L096HA02 ,  5L096KA04
引用特許:
審査官引用 (2件)
引用文献:
審査官引用 (4件)
  • Energetic and Informational Masking Effects in an Audiovisual Speech Recognition System
  • Energetic and Informational Masking Effects in an Audiovisual Speech Recognition System
  • 複数画像特徴量を用いた読唇システム オプティカルフロー特徴・形状特徴・離散コサイン変換特徴の統合の検
全件表示

前のページに戻る