抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
生オーディオのモデリングに適したアーキテクチャの開発は,オーディオ波形の高いサンプリング速度のため,挑戦的な問題である。RNNとCNNのような標準シーケンスモデリング手法は,以前にオーディオの要求に適合するように調整されてきたが,得られたアーキテクチャは,望ましくない計算トレードオフとモデル波形を効果的にモデル化する。長配列モデリングのために最近導入されたS4モデルの周りに構築された波形モデリングのための新しいマルチスケールアーキテクチャであるSaShiMiを提案した。S4は自己回帰発生時に不安定であり,Hurwitz行列への接続を描画することにより,そのパラメータ化に簡単な改善を提供することを確認した。SaShiMiは,自己回帰設定における無条件波形生成のための最先端の性能をもたらす。さらに,SaShiMiは拡散モデルのバックボーン構造として使用するとき,非自己回帰生成性能を改善した。自己回帰生成設定における事前アーキテクチャと比較して,SaShiMiは,人間が,無条件音声生成タスクにおいて,それぞれ,より音楽的およびコヒーレントであるピアノおよび音声波形を生成し,例えば,2xは,WaveNetよりも2x良い平均意見スコアである。音楽生成タスクにおいて,SaShiMiは3xのより少ないパラメータを用いる場合でも,訓練と推論の両方で密度推定と速度に関してWaveNetを凌駕する。https://hazyresearch.stanford.edu/sashimi examplesでhttps://github.com/HazyResearch/state spacesとサンプルでコードを見つけることができる。【JST・京大機械翻訳】