抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
音声と口唇動画像を用いるマルチモーダル音声認識は,雑音下で頑健に音声認識できる手法のひとつとして注目されている。他方,雑音下音声認識においては,音声区間の同定を行う音声区間検出(Voice Activity Detection,VAD)が有効である。我々はこれまでに,音響雑音の影響を受けない画像情報を併用したマルチモーダルVADを提案している。本研究では,マルチモーダルVADとマルチモーダル音声認識を組み合わせた音声認識手法を提案する。マルチモーダルVADでは,音声と非音声の識別に隠れマルコフモデル(Hidden Markov Model)を用いるモデルベース法と閾値を用いる非モデルベース法を,また音声情報と画像情報の統合方法として初期統合および結果統合を比較検討した。音響雑音を加えた音声・画像データを用いて音声認識実験を行ったところ,非モデルベース初期統合法がもっとも高い性能を示し,従来の音声認識手法よりも性能が改善した。(著者抄録)