ロバスト音声認識のためのDNNベース音響モデルにおける領域展開【JST・京大機械翻訳】

Ghorbani Shahram; Khorram Soheil; Hansen John H.L.

文献

J-GLOBAL ID：202002225147147336 整理番号：20A0904514

ロバスト音声認識のためのDNNベース音響モデルにおける領域展開【JST・京大機械翻訳】

Domain Expansion in DNN-Based Acoustic Models for Robust Speech Recognition

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A0904514&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A0904514&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (3件)： , ,
資料名：
巻： 2019 号： ASRU ページ： 107-113 発行年： 2019年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

連続的に入るデータによる訓練音響モデル,一方,新しいデータの活用と忘却効果を回避することは,音声認識における人間知能レベルを達成するための不可欠な障害である。新しい領域(例えば,新しいアクセント付き音声)からのデータを活用するための明らかなアプローチは,すべての利用可能なデータを組み合わせることにより,すべてのドメインの包括的データセットを最初に生成し,次にこのデータセットを用いて音響モデルを再訓練する。しかしながら,訓練データの量が増えるにつれて,そのような大規模データセット上での記憶と再訓練は実質的に不可能になる。この問題を扱うために,本研究では,すべてのドメインに対するより強いモデルを構築するために,新しいドメインのデータのみを利用するいくつかのドメイン拡張技術を研究した。これらの技術は,最小忘却効果(すなわち,元のモデル性能を維持する)を有する新しい領域を学習することを目的としている。これらの技術は,(1)重み制約適応(WCA)を含む新しい制約を課すことにより適応手順を修正する。(2)弾性重量圧密(EWC):以前に確立された領域に重要なパラメータに対する減速訓練;(3)ソフトKL発散(SKLD):オリジナルと適応モデル出力分布の間のKL発散を制限する。(4)ハイブリッドSKLD-EWC:SKLDとEWC制約の両方を組み込んだ。著者らは,著者らが自然英語で訓練された深いニューラルネットワーク(DNN)音響モデルを,オーストラリア,ヒスパニック,およびインドの3つの異なる英語のアクセントに適応させるアクセント適応タスクにおいて,これらの技術を評価する。実験結果は,SKLDがEWCより著しく優れていて,EWCがWCAより良く機能することを示した。ハイブリッドSKLD-EWC技術は最良の全体性能をもたらす。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , ,
, , , , 【Automatic Indexing@JST】

図形・画像処理一般

, ,

前のページに戻る