文献
J-GLOBAL ID:201002294581194176   整理番号:10A0196268

マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討

Multimodal speech recognition using multimodal voice activity detection
著者 (5件):
資料名:
巻: 109  号: 376(MVE2009 79-129)  ページ: 345-350  発行年: 2010年01月14日 
JST資料番号: S0532B  ISSN: 0913-5685  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
音声と口唇動画像を用いるマルチモーダル音声認識は,雑音下で頑健に音声認識できる手法のひとつとして注目されている。他方,雑音下音声認識においては,音声区間の同定を行う音声区間検出(Voice Activity Detection,VAD)が有効である。我々はこれまでに,音響雑音の影響を受けない画像情報を併用したマルチモーダルVADを提案している。本研究では,マルチモーダルVADとマルチモーダル音声認識を組み合わせた音声認識手法を提案する。マルチモーダルVADでは,音声と非音声の識別に隠れマルコフモデル(Hidden Markov Model)を用いるモデルベース法と閾値を用いる非モデルベース法を,また音声情報と画像情報の統合方法として初期統合および結果統合を比較検討した。音響雑音を加えた音声・画像データを用いて音声認識実験を行ったところ,非モデルベース初期統合法がもっとも高い性能を示し,従来の音声認識手法よりも性能が改善した。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る