それは生まれ!  状態空間モデルによるオーディオ生成【JST・京大機械翻訳】

Goel Karan; Gu Albert; Donahue Chris; Re Christopher

プレプリント

J-GLOBAL ID：202202220111117629 整理番号：22P0292341

それは生まれ! 状態空間モデルによるオーディオ生成【JST・京大機械翻訳】

It's Raw! Audio Generation with State-Space Models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年02月19日プレプリントサーバーでの情報更新日： 2022年02月19日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

生オーディオのモデリングに適したアーキテクチャの開発は,オーディオ波形の高いサンプリング速度のため,挑戦的な問題である。RNNとCNNのような標準シーケンスモデリング手法は,以前にオーディオの要求に適合するように調整されてきたが,得られたアーキテクチャは,望ましくない計算トレードオフとモデル波形を効果的にモデル化する。長配列モデリングのために最近導入されたS4モデルの周りに構築された波形モデリングのための新しいマルチスケールアーキテクチャであるSaShiMiを提案した。S4は自己回帰発生時に不安定であり,Hurwitz行列への接続を描画することにより,そのパラメータ化に簡単な改善を提供することを確認した。SaShiMiは,自己回帰設定における無条件波形生成のための最先端の性能をもたらす。さらに,SaShiMiは拡散モデルのバックボーン構造として使用するとき,非自己回帰生成性能を改善した。自己回帰生成設定における事前アーキテクチャと比較して,SaShiMiは,人間が,無条件音声生成タスクにおいて,それぞれ,より音楽的およびコヒーレントであるピアノおよび音声波形を生成し,例えば,2xは,WaveNetよりも2x良い平均意見スコアである。音楽生成タスクにおいて,SaShiMiは3xのより少ないパラメータを用いる場合でも,訓練と推論の両方で密度推定と速度に関してWaveNetを凌駕する。https://hazyresearch.stanford.edu/sashimi examplesでhttps://github.com/HazyResearch/state spacesとサンプルでコードを見つけることができる。【JST・京大機械翻訳】

, , , , , , ,
, , , , , , , 【Automatic Indexing@JST】

音声処理

前のページに戻る