プレプリント
J-GLOBAL ID:202202220111117629   整理番号:22P0292341

それは生まれ! 状態空間モデルによるオーディオ生成【JST・京大機械翻訳】

It's Raw! Audio Generation with State-Space Models
著者 (4件):
資料名:
発行年: 2022年02月19日  プレプリントサーバーでの情報更新日: 2022年02月19日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
生オーディオのモデリングに適したアーキテクチャの開発は,オーディオ波形の高いサンプリング速度のため,挑戦的な問題である。RNNとCNNのような標準シーケンスモデリング手法は,以前にオーディオの要求に適合するように調整されてきたが,得られたアーキテクチャは,望ましくない計算トレードオフとモデル波形を効果的にモデル化する。長配列モデリングのために最近導入されたS4モデルの周りに構築された波形モデリングのための新しいマルチスケールアーキテクチャであるSaShiMiを提案した。S4は自己回帰発生時に不安定であり,Hurwitz行列への接続を描画することにより,そのパラメータ化に簡単な改善を提供することを確認した。SaShiMiは,自己回帰設定における無条件波形生成のための最先端の性能をもたらす。さらに,SaShiMiは拡散モデルのバックボーン構造として使用するとき,非自己回帰生成性能を改善した。自己回帰生成設定における事前アーキテクチャと比較して,SaShiMiは,人間が,無条件音声生成タスクにおいて,それぞれ,より音楽的およびコヒーレントであるピアノおよび音声波形を生成し,例えば,2xは,WaveNetよりも2x良い平均意見スコアである。音楽生成タスクにおいて,SaShiMiは3xのより少ないパラメータを用いる場合でも,訓練と推論の両方で密度推定と速度に関してWaveNetを凌駕する。https://hazyresearch.stanford.edu/sashimi examplesでhttps://github.com/HazyResearch/state spacesとサンプルでコードを見つけることができる。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
音声処理 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る