nnAudio:1D畳込みニューラルネットワークを用いたスペクトログラム変換ツールボックスへのオンザフライGPUオーディオ【JST・京大機械翻訳】

Cheuk Kin Wai; Anderson Hans; Agres Kat; Herremans Dorien

プレプリント

J-GLOBAL ID：202202220502429820 整理番号：22P0095345

nnAudio:1D畳込みニューラルネットワークを用いたスペクトログラム変換ツールボックスへのオンザフライGPUオーディオ【JST・京大機械翻訳】

nnAudio: An on-the-fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolution Neural Networks

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2019年12月27日プレプリントサーバーでの情報更新日： 2020年08月21日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

時間領域波形を周波数領域スペクトログラムに変換することは,モデル訓練前に行われるプレポグラフステップであると考えられている。しかし,この方法はいくつかの欠点を持つ。最初に,それは種々の周波数領域表現を保存するために多くのハードディスク空間を取り入れた。これは,最適性能のための様々なタイプのスペクトログラムを探索するとき,モデル開発と調整プロセスの間に特に真実である。第二に,もう1つのデータセットを使用するならば,ネットワークが再訓練される前に,再びすべてのオーディオクリップを処理しなければならない。本論文では,時間領域をモデル構造の一部として周波数領域変換に統合し,ニューラルネットワークベースのツールボックス,nnAudioを提案し,1D畳み込みニューラルネットワークを利用して,フィードフォワード中の周波数領域変換に時間ドメインを遂行した。それは,ディスク上に任意のスペクトログラムを貯蔵する必要なしに,オンザフライスペクトログラム生成を可能にする。また,このアプローチは,波形からスペクトログラム変換層への逆伝搬を可能にし,この変換プロセスが訓練可能にでき,従って,勾配降下によりさらに最適化され,CPU:Intel(R)Xeon(R)CPU E5-2698v4@2.20GHz Tesla v10032Gb GPUsのGPUを用いるとき,1,770波形(MAPSデータセットから)の1,770波形(STFT),18.3秒から0.015秒,一定Q変換(CQT)の103.4秒から0.258秒へ,18.3秒から18.3秒に,18.3秒から0.258秒まで,1,18.3秒から18.3秒に,18.3秒から18.3秒まで,1,18.3秒から0.01秒に,1,18.3秒から,一定Q変換(CQT)で,18.3秒から0.01秒の(Only 1GPUはすべての実験に使用),さらに既存のCQTアルゴリズムを最適化し,CQTスペクトログラムは,はるかに速い計算時間(0.258秒から0.001秒まで)でエイリアシングなしで得ることができる。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

音声処理 , 音響信号処理 , パターン認識

, , , , ,

前のページに戻る