文献
J-GLOBAL ID:201902238865594288   整理番号:19A0610551

話者適応のためのディープニューラルネットワークに基づく音声認識内のフィルタバンク層の識別学習

Discriminative Learning of Filterbank Layer within Deep Neural Network Based Speech Recognition for Speaker Adaptation
著者 (5件):
資料名:
巻: E102.D  号:ページ: 364-374(J-STAGE)  発行年: 2019年 
JST資料番号: U0469A  ISSN: 1745-1361  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ディープニューラルネットワーク(DNN)は自動音声認識の分野で大きな成功を収めている。DNNの主な利点の1つは,人手を介さずに自動特徴抽出を行うことである。しかしながら,限られた利用可能なデータの下での適応は,それらの膨大な自由パラメータのために,DNNベースのシステムにとって依然として大きな課題である。本稿では,フィルタ形状/中心周波数を表すフィルタバンク層とDNNに基づく音響モデルを組み合わせたフィルタバンク内蔵DNNを提案する。フィルタバンク層および提案モデルの後続のネットワークは,階層的特徴抽出の利点を利用することによって共同で訓練され,一方,ほとんどのシステムは,予め定義されたメルスケールフィルタバンク特徴をDNNへの入力音響特徴として使用する。フィルタバンク層のフィルタは,いくつかのパラメータを最小にしながら話者特性を表すようにパラメータ化される。1つのタイプのパラメータの最適化は声道長正規化(VTLN)に対応し,他のタイプは特徴空間最大線形尤度回帰(fMLLR)および特徴空間識別線形回帰(fDLR)に対応する。フィルタバンク層はほんの少数のパラメータからなるため,限られた利用可能なデータの下での適応において有利である。実験では,フィルタバンクを組み込んだDNNは,限られた適応データの下で話者/性別適応において有効性を示した。CSJタスクに関する実験結果は,提案モデルの適応が非適応モデルに対して10発話で5.8%の単語誤り減少率を示すのを実証した。(翻訳著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  パターン認識 
引用文献 (50件):
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る