ダンスビデオからの複雑な音楽生成のための量子化GAN【JST・京大機械翻訳】

Zhu Ye; Olszewski Kyle; Wu Yu; Achlioptas Panos; Chai Menglei; Yan Yan; Tulyakov Sergey

プレプリント

J-GLOBAL ID：202202214261490557 整理番号：22P0324101

ダンスビデオからの複雑な音楽生成のための量子化GAN【JST・京大機械翻訳】

Quantized GAN for Complex Music Generation from Dance Videos

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年04月01日プレプリントサーバーでの情報更新日： 2022年07月19日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ダンスビデオ上で調整された複雑な音楽サンプルを生成する新しい敵対マルチモーダルフレームワークであるDance2Music-GAN(D2M-GAN)を提示した。提案フレームワークは,入力としてダンスビデオフレームと人体運動を採り,対応する入力を偶然に随伴する音楽サンプルを生成するように学習する。記号的オーディオ表現(例えば,MIDI)を用いて,特定の型のモノインストレーション音を生成する既存の条件付き音楽生成研究と異なり,本研究では,通常,事前定義音楽合成者に頼り,ここでは,ベクトル量子化(VQ)オーディオ表現を用いて,複素スタイル(例えば,ポップ,破壊など)におけるダンス音楽を生成し,その記号的および連続的対応物の普遍性と高抽象化能力の両方を利用した。多重データセットに関する広範囲な実験を実行し,包括的評価プロトコルに従って,代替案に対する提案の創造的品質を評価した。音楽一貫性,ビート対応および音楽多様性を測定する,得られた定量的結果は,提案した方法の有効性を示した。最後に,最小ではないが,著者らは,実世界アプリケーションにおける著者らのアプローチの有効性をさらに実証するために使用する,インザイスのTikTokビデオの挑戦的なダンス-音楽データセットを整理し,関連する将来の研究のための出発点として役立つことを期待する。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , 【Automatic Indexing@JST】

楽器音響

, , , ,

前のページに戻る