抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
時間領域波形を周波数領域スペクトログラムに変換することは,モデル訓練前に行われるプレポグラフステップであると考えられている。しかし,この方法はいくつかの欠点を持つ。最初に,それは種々の周波数領域表現を保存するために多くのハードディスク空間を取り入れた。これは,最適性能のための様々なタイプのスペクトログラムを探索するとき,モデル開発と調整プロセスの間に特に真実である。第二に,もう1つのデータセットを使用するならば,ネットワークが再訓練される前に,再びすべてのオーディオクリップを処理しなければならない。本論文では,時間領域をモデル構造の一部として周波数領域変換に統合し,ニューラルネットワークベースのツールボックス,nnAudioを提案し,1D畳み込みニューラルネットワークを利用して,フィードフォワード中の周波数領域変換に時間ドメインを遂行した。それは,ディスク上に任意のスペクトログラムを貯蔵する必要なしに,オンザフライスペクトログラム生成を可能にする。また,このアプローチは,波形からスペクトログラム変換層への逆伝搬を可能にし,この変換プロセスが訓練可能にでき,従って,勾配降下によりさらに最適化され,CPU:Intel(R)Xeon(R)CPU E5-2698v4@2.20GHz Tesla v10032Gb GPUsのGPUを用いるとき,1,770波形(MAPSデータセットから)の1,770波形(STFT),18.3秒から0.015秒,一定Q変換(CQT)の103.4秒から0.258秒へ,18.3秒から18.3秒に,18.3秒から0.258秒まで,1,18.3秒から18.3秒に,18.3秒から18.3秒まで,1,18.3秒から0.01秒に,1,18.3秒から,一定Q変換(CQT)で,18.3秒から0.01秒の(Only 1GPUはすべての実験に使用),さらに既存のCQTアルゴリズムを最適化し,CQTスペクトログラムは,はるかに速い計算時間(0.258秒から0.001秒まで)でエイリアシングなしで得ることができる。【JST・京大機械翻訳】