プレプリント
J-GLOBAL ID:202202209247748726   整理番号:21P0028577

ロバストなDNNベースの音声強調のためのSNRベースの特徴と多様な訓練データ【JST・京大機械翻訳】

SNR-Based Features and Diverse Training Data for Robust DNN-Based Speech Enhancement
著者 (2件):
資料名:
発行年: 2020年04月07日  プレプリントサーバーでの情報更新日: 2021年05月15日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,訓練データがサイズや多様性に限定される場合について,雑音条件に対する深いニューラルネットワーク(DNN)ベースの音声強調の一般化に取り組んだ。より多くの洞察を得るために,(1)訓練データのサイズと多様性,(2)異なるネットワークアーキテクチャ,(3)選択した特徴に関して一般化を分析した。(1)に,著者らは,Hu雑音コーパス(制限サイズ),CHiME3雑音コーパス(制限多様性)に関するネットワークを訓練し,また,自由に利用可能な音に基づいて収集した大規模で多様なデータセットを提案した。処理するために,完全接続フィードフォワードと長い短期メモリ(LSTM)アーキテクチャを比較した。3つの入力特徴,すなわち,対数化雑音周期図,雑音認識訓練(NAT),および提案した信号対雑音比(SNR)ベース雑音認識訓練(SNR-NAT)を比較した。豊富な訓練データと改善されたネットワークアーキテクチャがDNNを一般化するのに役立つことを確認した。さらに,実験結果およびt分布確率近傍埋込み(t-SNE)を用いた解析を行ない,提案したSNR-NAT特徴が,簡単なネットワークアーキテクチャで,また,小さなデータセット上で訓練された場合でさえ,ロバストでレベルに依存しない結果をもたらし,これは,本論文の鍵となる貢献である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る