特許
J-GLOBAL ID:200903074515866760
音声認識装置及び音声認識方法
発明者:
,
出願人/特許権者:
代理人 (1件):
役 昌明 (外3名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-256201
公開番号(公開出願番号):特開平11-085190
出願日: 1997年09月05日
公開日(公表日): 1999年03月30日
要約:
【要約】【課題】 騒音環境下で高い認識率を有する音声認識装置を提供する。【解決手段】 口唇の映像が入力する映像入力手段1と、音声が入力する音声入力手段3と、口唇の映像標準データと入力映像との類似度を算出し、映像標準データの各単音節ごとの類似度を出力する映像処理手段2と、音声標準データと入力音声との類似度を算出し、音声標準データの各単音節ごとの類似度を出力する音声処理手段4と、映像処理手段から出力される映像標準データの各単音節に対する正答率データを保持する映像標準データ正答率保持手段6と、音声処理手段から出力される音声標準データの各単音節に対する正答率データを保持する音声標準データ正答率保持手段7と、各類似度及び正答率を組合せて総合的類似度を求める音声認識手段5とを設ける。音声認識手段は、総合的類似度が最も大きい単音節を認識結果として識別する。
請求項(抜粋):
口唇を含む話者の映像データが入力する映像入力手段と、話者の音声データが入力する音声入力手段と、各単音節を発声する口唇の映像標準データと入力映像データとの間の類似度を算出し、映像標準データの各単音節とそれに対する類似度とを出力する映像処理手段と、各単音節を発声する音声の音声標準データと入力音声データとの間の類似度を算出し、音声標準データの各単音節とそれに対する類似度とを出力する音声処理手段と、前記映像処理手段及び音声処理手段から出力された類似度を用いて、総合的な類似度が最も大きい単音節を識別する音声認識手段とを備える音声認識装置において、前記映像処理手段から出力される映像標準データの各単音節に対する正答率のデータを保持する映像標準データ正答率保持手段と、前記音声処理手段から出力される音声標準データの各単音節に対する正答率のデータを保持する音声標準データ正答率保持手段とを具備し、前記音声認識手段が、前記映像処理手段及び音声処理手段から出力される類似度と、前記映像標準データ正答率保持手段及び音声標準データ正答率保持手段から読み出した正答率のデータとを組み合わせて、各単音節に対する総合的な類似度を求めることを特徴とする音声認識装置。
IPC (3件):
G10L 3/00 571
, G10L 3/00 531
, G06T 1/00
FI (3件):
G10L 3/00 571 G
, G10L 3/00 531 G
, G06F 15/62 380
引用特許:
審査官引用 (8件)
-
情報入力装置及び情報入力方法
公報種別:公開公報
出願番号:特願平6-219942
出願人:日本電信電話株式会社
-
音素認識装置および音素認識方法
公報種別:公開公報
出願番号:特願平5-164284
出願人:日本電装株式会社
-
音声認識装置
公報種別:公開公報
出願番号:特願平7-070435
出願人:富士ゼロックス株式会社
-
音声セグメンテーション方法
公報種別:公開公報
出願番号:特願平5-126111
出願人:日本電装株式会社
-
特開昭60-039522
-
特開昭59-068794
-
特開昭61-147299
-
特開昭61-213900
全件表示
前のページに戻る