文献
J-GLOBAL ID:201802282990585068   整理番号:18A0030164

リカレントニューラルネットワークと置換不変訓練を用いた雑音の多い複数話者音声の同時分離と雑音除去【Powered by NICT】

Joint separation and denoising of noisy multi-talker speech using recurrent neural networks and permutation invariant training
著者 (4件):
資料名:
巻: 2017  号: MLSP  ページ: 1-6  発行年: 2017年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,不特定話者複数話者音声分離と雑音除去のための発話レベル置換不変訓練(uPIT)を用いて,同時にすることを提案した。特に,uPITを用いた深い双方向長い短期記憶(LSTM)リカレントニューラルネットワーク(RNN)を訓練,多重雑音条件における単一チャネル話者独立複数話者音声分離,合成と実雑音信号を含む。雑音タイプと数同時話者の例えば事前知識の様々なタイプに依存するモデルの一般化可能性と雑音ロバスト性に関する実験に焦点を当てた。雑音環境におけるuPITを用いて訓練された深い双方向LSTM再帰的神経回路網は様々な雑音タイプとSN比(SNR)のための,話者に依存しない複数話者音声分離と雑音除去タスクに関して,信号対歪比(SDR)としての拡張短時間客観的了解度(ESTOI)測度を改善できることを示す。具体的には,まずLSTM再帰的神経回路網は大きなSDRとESTOI改善,既知雑音タイプを用いて評価したとき,を得ることができ,単一モデルは,性能のわずかな低下のみで複数騒音タイプを扱うことができることを示した。さらに,単一LSTM RNNは二話者と三話者双方についてノイズのある混合物を扱うことができ,話者の正確な数に関する事前知識なしにできることを示した。最後に,uPITを用いて訓練されたLSTM再帰的神経回路網は訓練中には見られないノイズタイプに一般化したことを示した。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  音声処理 

前のページに戻る