視覚音声認識のための深い相補的ボトルネック特徴【Powered by NICT】

Petridis Stavros; Pantic Maja

文献

J-GLOBAL ID：201602281889677067 整理番号：16A0617780

視覚音声認識のための深い相補的ボトルネック特徴【Powered by NICT】

Deep complementary bottleneck features for visual speech recognition

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=16A0617780&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=16A0617780&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (2件)： ,
資料名：
巻： 2016 号： ICASSP ページ： 2304-2308 発行年： 2016年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ディープボトルネック特徴(DBNFs)は,音声からの音響音声認識のための過去に成功裏に使用されている。しかし,視覚音声認識のためのDBNFs抽出に関する研究は非常に限られている。本研究では,深いオートエンコーダに基づく深ボトルネック視覚特徴を抽出する方法を提案した。著者らの知識の及ぶ限りでは,これはピクセルから視覚音声認識のためのDBNFsを抽出する最初の研究である。画像の次元性を低減するために,著者らは最初に,ボトルネック層を持つ深いオートエンコーダを訓練した。オートエンコーダの復号化層は,ボトルネック特徴はよりおおきな判別する分類層により置換された。DCT特徴に相補的なボトルネック特徴を作成するために離散余弦変換(DCT)特徴を訓練中のボトルネック層においても付した[1995.3]。買い-売り記憶(LSTM)ネットワークは,時間的動力学をモデル化するために使用し,性能はOuluVSとAVLettersデータベース上で評価した。DCT特徴との組合せの中で抽出された相補的DBNFはDCTベースラインで5%までの絶対改善した最良の性能を達成した。Copyright 2016 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , , , , , ,
, 【Automatic Indexing@JST】

パターン認識

, ,

前のページに戻る