ロバストなDNNベースの音声強調のためのSNRベースの特徴と多様な訓練データ【JST・京大機械翻訳】

Rehr Robert; Gerkmann Timo

プレプリント

J-GLOBAL ID：202202209247748726 整理番号：21P0028577

ロバストなDNNベースの音声強調のためのSNRベースの特徴と多様な訓練データ【JST・京大機械翻訳】

SNR-Based Features and Diverse Training Data for Robust DNN-Based Speech Enhancement

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2020年04月07日プレプリントサーバーでの情報更新日： 2021年05月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

本論文では,訓練データがサイズや多様性に限定される場合について,雑音条件に対する深いニューラルネットワーク(DNN)ベースの音声強調の一般化に取り組んだ。より多くの洞察を得るために,(1)訓練データのサイズと多様性,(2)異なるネットワークアーキテクチャ,(3)選択した特徴に関して一般化を分析した。(1)に,著者らは,Hu雑音コーパス(制限サイズ),CHiME3雑音コーパス(制限多様性)に関するネットワークを訓練し,また,自由に利用可能な音に基づいて収集した大規模で多様なデータセットを提案した。処理するために,完全接続フィードフォワードと長い短期メモリ(LSTM)アーキテクチャを比較した。3つの入力特徴,すなわち,対数化雑音周期図,雑音認識訓練(NAT),および提案した信号対雑音比(SNR)ベース雑音認識訓練(SNR-NAT)を比較した。豊富な訓練データと改善されたネットワークアーキテクチャがDNNを一般化するのに役立つことを確認した。さらに,実験結果およびt分布確率近傍埋込み(t-SNE)を用いた解析を行ない,提案したSNR-NAT特徴が,簡単なネットワークアーキテクチャで,また,小さなデータセット上で訓練された場合でさえ,ロバストでレベルに依存しない結果をもたらし,これは,本論文の鍵となる貢献である。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

パターン認識

, , ,

前のページに戻る