文献
J-GLOBAL ID:201202282649219730   整理番号:12A1634854

音声認識での音響モデリングのためのディープニューラルネットワーク-4つの研究グループの共通視点

Deep Neural Networks for Acoustic Modeling in Speech Recognition
著者 (11件):
資料名:
巻: 29  号:ページ: 82-97  発行年: 2012年11月 
JST資料番号: H0928A  ISSN: 1053-5888  CODEN: ISPRE6  資料種別: 逐次刊行物 (A)
記事区分: 文献レビュー  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
多くの音声認識システムは,会話の時間変動を扱うために隠れマルコフモデル(HMM)と,各HMMの状態が如何に音響入力を表すフレームまたは短ウインドウのフレームに適合するかを決定するためにガウス混合モデル(GMM)を使用している。適合を評価する他の方法として,フィードフォワードニューラルネットワークがある。この方法は,いくつかの係数のフレームを入力として使用し,HMM状態での事後確率を出力として生成している。ディープニューラルネットワーク(DNN)は音声認識ベンチマークでGMMを凌ぐことが示されている。ここでは,音声認識での音響モデリングのためにDNNを用いて成功した4つの研究グループの研究成果を概観した。最近,生成的事前訓練の初期ステージを加えることにより,顕著な性能向上が得られることが示された。事前訓練は狭いニューラルネットよりもディープニューラルネットに有益であり,特に,ラベル化された訓練データが得られる場合にはそうである。これにより,オーバーフィッティングを減らし,GMMの代わりにDNNを使用した場合に障害になっていた,逆伝播による識別微調整に必要な時間を減少させた。GMMに比較してDNNの最大の欠点は,多量データセットでそれらを訓練する大規模クラスタマシーンの利用が困難なことである。しかし,これはDNNが効率的にデータを利用することによりオフセットされる。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 

前のページに戻る