マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討

田村哲嗣; 石川雅人; 羽柴隆志; 竹内伸一; 速水悟

文献

J-GLOBAL ID：201002294581194176 整理番号：10A0196268

マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討

Multimodal speech recognition using multimodal voice activity detection

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=10A0196268&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=10A0196268&from=J-GLOBAL&jstjournalNo=S0532B") }}

著者 (5件)： , , , ,
資料名：
巻： 109 号： 376(MVE2009 79-129) ページ： 345-350 発行年： 2010年01月14日
JST資料番号： S0532B ISSN： 0913-5685 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

音声と口唇動画像を用いるマルチモーダル音声認識は,雑音下で頑健に音声認識できる手法のひとつとして注目されている。他方,雑音下音声認識においては,音声区間の同定を行う音声区間検出(Voice Activity Detection,VAD)が有効である。我々はこれまでに,音響雑音の影響を受けない画像情報を併用したマルチモーダルVADを提案している。本研究では,マルチモーダルVADとマルチモーダル音声認識を組み合わせた音声認識手法を提案する。マルチモーダルVADでは,音声と非音声の識別に隠れマルコフモデル(Hidden Markov Model)を用いるモデルベース法と閾値を用いる非モデルベース法を,また音声情報と画像情報の統合方法として初期統合および結果統合を比較検討した。音響雑音を加えた音声・画像データを用いて音声認識実験を行ったところ,非モデルベース初期統合法がもっとも高い性能を示し,従来の音声認識手法よりも性能が改善した。(著者抄録)

, , , ,
, , ,

パターン認識

, ,

前のページに戻る