特許
J-GLOBAL ID:200903011549852928

単語認識装置

発明者:
出願人/特許権者:
代理人 (1件): 二瓶 正敬
公報種別:公開公報
出願番号(国際出願番号):特願2003-406698
公開番号(公開出願番号):特開2005-165887
出願日: 2003年12月05日
公開日(公表日): 2005年06月23日
要約:
【課題】 雑音がある環境であっても正確に単語を認識するために、音声自体に頼ることなく、画像認識技術を利用して単語を認識する単語認識装置を提供する。 【解決手段】 話者の口唇を画像処理して認識するに際し、所定の単位時間ごとに口唇を含む画像を取り込み、時間経過による画像の差分を計算することにより1音が発声された状態を検出し、母音と「ん」からなる文字列として認識し、あらかじめ認識したい複数の単語データを、母音と「ん」の文字列として格納した単語辞書とマッチングにより比較して単語を認識する。【選択図】 図1
請求項(抜粋):
話者の口唇を撮像して撮像画像を1ピクセルのビット数が2ビット以上の階調画像データに変換する撮像手段と、 前記階調画像データの2フレーム分を格納できる画像メモリ手段と、 前記撮像手段から出力される前記階調画像データを単位時間ごとに前記画像メモリ手段の2つのフレーム格納部分に交互に格納する画像取り込み手段と、 前記画像メモリ手段に格納されている2フレームの画像データ間の差分を計算し、その差分が所定の差分閾値より小さいことを判定する画像差分手段と、 前記画像差分手段により前記差分が前記差分閾値より小さいと判定された場合、前記画像メモリ手段が備える2つのフレーム格納部分のどちらか一方の画像データを選択し、選択した画像データの各ピクセルを所定のピクセル閾値にて判別して2値の画像データに変換することで前記撮像画像中の口唇領域を抽出して2値の口唇領域画像データを出力する領域分割手段と、 前記領域分割手段から出力された前記2値の口唇領域画像データを1フレーム格納できる口唇領域メモリ手段と、 母音の口唇パターンデータと、「ん」を発生した閉口状態の口唇パターンデータが格納されているパターンデータ格納手段と、 前記口唇領域メモリ手段に格納された2値の口唇領域画像データと、前記パターンデータ格納手段のパターンデータとマッチングを行い、その結果得られた母音と「ん」の音を文字データとして出力するパターンマッチング手段と、 前記パターンマッチング手段から順次出力された前記母音と「ん」を表す文字データを文字列として蓄積する文字列バッファ手段と、 認識すべき複数の単語のそれぞれから、各単語の「ん」を抽出して文字列として格納してある母音辞書データ手段と、 前記母音辞書データ手段に格納されている母音と「ん」の文字列と、前記文字列バッファ手段から出力された文字列を比較して、対応する単語を出力する母音辞書データ検索手段とを、 有する単語認識装置。
IPC (3件):
G06T7/20 ,  G06T7/00 ,  G10L15/24
FI (3件):
G06T7/20 300B ,  G06T7/00 300D ,  G10L3/00 571Q
Fターム (13件):
5D015LL07 ,  5L096AA02 ,  5L096AA06 ,  5L096BA20 ,  5L096CA14 ,  5L096EA05 ,  5L096EA43 ,  5L096GA08 ,  5L096GA19 ,  5L096GA51 ,  5L096GA55 ,  5L096HA09 ,  5L096JA09
引用特許:
出願人引用 (2件)
  • 車両用音声認識装置
    公報種別:公開公報   出願番号:特願平10-149103   出願人:株式会社東海理化電機製作所
  • 音声画像認識翻訳装置
    公報種別:公開公報   出願番号:特願平8-247939   出願人:株式会社日立製作所

前のページに戻る