オーディオイベント検出のためのニューラルアーキテクチャのロバスト性【JST・京大機械翻訳】

Li Juncheng B; Wang Zheng; Qu Shuhui; Metze Florian

プレプリント

J-GLOBAL ID：202202220090131022 整理番号：22P0345413

オーディオイベント検出のためのニューラルアーキテクチャのロバスト性【JST・京大機械翻訳】

Robustness of Neural Architectures for Audio Event Detection

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年05月06日プレプリントサーバーでの情報更新日： 2022年07月29日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

伝統的に,Audio認識パイプラインにおいて,ノイズは「フロントエンド」によって抑制され,音声強調のような前処理技術に依存する。しかし,騒音は下流パイプラインにカスケードしないと保証されない。全体のオーディオパイプラインに対するノイズの実際の影響を理解するために,本論文では,前処理段階のない異なるタイプのニューラルモデルに対する雑音の影響を直接的に調べた。3種類のノイズ,すなわち,オクルージョン(間欠雑音をエミュレートする),Gauss雑音(モデル連続雑音),および敵対摂動(最悪ケースシナリオ)の下で,環境音分類のタスクに関する4つの異なるニューラルネットワークモデルの認識性能を測定した。著者らの直感は,これらのモデルがそれらの入力(即ち,CNNs)がそれらの入力(即ち,CNNsが持つ強い局所帰納的バイアスを持つ)が,性能および/またはロバスト性における観察可能な差異に導くべきであり,その理解は,更なる改善を可能にするであろう。利用可能な最大弱ラベル音事象データセットであるAudioSetに関する広範な実験を行った。また,出力分布変化および重量可視化を通して,異なるモデルの挙動を説明した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識 , 音声処理

, ,

前のページに戻る