Pat
J-GLOBAL ID:200903074515866760
音声認識装置及び音声認識方法
Inventor:
,
Applicant, Patent owner:
Agent (1):
役 昌明 (外3名)
Gazette classification:公開公報
Application number (International application number):1997256201
Publication number (International publication number):1999085190
Application date: Sep. 05, 1997
Publication date: Mar. 30, 1999
Summary:
【要約】【課題】 騒音環境下で高い認識率を有する音声認識装置を提供する。【解決手段】 口唇の映像が入力する映像入力手段1と、音声が入力する音声入力手段3と、口唇の映像標準データと入力映像との類似度を算出し、映像標準データの各単音節ごとの類似度を出力する映像処理手段2と、音声標準データと入力音声との類似度を算出し、音声標準データの各単音節ごとの類似度を出力する音声処理手段4と、映像処理手段から出力される映像標準データの各単音節に対する正答率データを保持する映像標準データ正答率保持手段6と、音声処理手段から出力される音声標準データの各単音節に対する正答率データを保持する音声標準データ正答率保持手段7と、各類似度及び正答率を組合せて総合的類似度を求める音声認識手段5とを設ける。音声認識手段は、総合的類似度が最も大きい単音節を認識結果として識別する。
Claim (excerpt):
口唇を含む話者の映像データが入力する映像入力手段と、話者の音声データが入力する音声入力手段と、各単音節を発声する口唇の映像標準データと入力映像データとの間の類似度を算出し、映像標準データの各単音節とそれに対する類似度とを出力する映像処理手段と、各単音節を発声する音声の音声標準データと入力音声データとの間の類似度を算出し、音声標準データの各単音節とそれに対する類似度とを出力する音声処理手段と、前記映像処理手段及び音声処理手段から出力された類似度を用いて、総合的な類似度が最も大きい単音節を識別する音声認識手段とを備える音声認識装置において、前記映像処理手段から出力される映像標準データの各単音節に対する正答率のデータを保持する映像標準データ正答率保持手段と、前記音声処理手段から出力される音声標準データの各単音節に対する正答率のデータを保持する音声標準データ正答率保持手段とを具備し、前記音声認識手段が、前記映像処理手段及び音声処理手段から出力される類似度と、前記映像標準データ正答率保持手段及び音声標準データ正答率保持手段から読み出した正答率のデータとを組み合わせて、各単音節に対する総合的な類似度を求めることを特徴とする音声認識装置。
IPC (3):
G10L 3/00 571
, G10L 3/00 531
, G06T 1/00
FI (3):
G10L 3/00 571 G
, G10L 3/00 531 G
, G06F 15/62 380
Patent cited by the Patent:
Cited by examiner (8)
-
情報入力装置及び情報入力方法
Gazette classification:公開公報
Application number:特願平6-219942
Applicant:日本電信電話株式会社
-
音素認識装置および音素認識方法
Gazette classification:公開公報
Application number:特願平5-164284
Applicant:日本電装株式会社
-
音声認識装置
Gazette classification:公開公報
Application number:特願平7-070435
Applicant:富士ゼロックス株式会社
-
音声セグメンテーション方法
Gazette classification:公開公報
Application number:特願平5-126111
Applicant:日本電装株式会社
-
特開昭60-039522
-
特開昭59-068794
-
特開昭61-147299
-
特開昭61-213900
Show all
Return to Previous Page