プレプリント
J-GLOBAL ID:202202220502429820   整理番号:22P0095345

nnAudio:1D畳込みニューラルネットワークを用いたスペクトログラム変換ツールボックスへのオンザフライGPUオーディオ【JST・京大機械翻訳】

nnAudio: An on-the-fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolution Neural Networks
著者 (4件):
資料名:
発行年: 2019年12月27日  プレプリントサーバーでの情報更新日: 2020年08月21日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
時間領域波形を周波数領域スペクトログラムに変換することは,モデル訓練前に行われるプレポグラフステップであると考えられている。しかし,この方法はいくつかの欠点を持つ。最初に,それは種々の周波数領域表現を保存するために多くのハードディスク空間を取り入れた。これは,最適性能のための様々なタイプのスペクトログラムを探索するとき,モデル開発と調整プロセスの間に特に真実である。第二に,もう1つのデータセットを使用するならば,ネットワークが再訓練される前に,再びすべてのオーディオクリップを処理しなければならない。本論文では,時間領域をモデル構造の一部として周波数領域変換に統合し,ニューラルネットワークベースのツールボックス,nnAudioを提案し,1D畳み込みニューラルネットワークを利用して,フィードフォワード中の周波数領域変換に時間ドメインを遂行した。それは,ディスク上に任意のスペクトログラムを貯蔵する必要なしに,オンザフライスペクトログラム生成を可能にする。また,このアプローチは,波形からスペクトログラム変換層への逆伝搬を可能にし,この変換プロセスが訓練可能にでき,従って,勾配降下によりさらに最適化され,CPU:Intel(R)Xeon(R)CPU E5-2698v4@2.20GHz Tesla v10032Gb GPUsのGPUを用いるとき,1,770波形(MAPSデータセットから)の1,770波形(STFT),18.3秒から0.015秒,一定Q変換(CQT)の103.4秒から0.258秒へ,18.3秒から18.3秒に,18.3秒から0.258秒まで,1,18.3秒から18.3秒に,18.3秒から18.3秒まで,1,18.3秒から0.01秒に,1,18.3秒から,一定Q変換(CQT)で,18.3秒から0.01秒の(Only 1GPUはすべての実験に使用),さらに既存のCQTアルゴリズムを最適化し,CQTスペクトログラムは,はるかに速い計算時間(0.258秒から0.001秒まで)でエイリアシングなしで得ることができる。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  音響信号処理  ,  パターン認識 

前のページに戻る