音楽表現のためのポジティブネガティブフレームマスクによるコントラスト学習【JST・京大機械翻訳】

Yao Dong; Zhao Zhou; Zhang Shengyu; Zhu Jieming; Zhu Yudong; Zhang Rui; He Xiuqiang

プレプリント

J-GLOBAL ID：202202219411038676 整理番号：22P0305779

音楽表現のためのポジティブネガティブフレームマスクによるコントラスト学習【JST・京大機械翻訳】

Contrastive Learning with Positive-Negative Frame Mask for Music Representation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年03月17日プレプリントサーバーでの情報更新日： 2022年04月03日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

自己監督学習,特に対照的学習は,多くの深い学習研究分野の開発に対して顕著な貢献をした。最近,音響信号処理分野での研究者は,より良い音楽表現のために,その成功と活用されたコントラスト学習に気付いた。典型的には,既存の手法は同じ音楽からサンプリングされた2つの歪んだオーディオセグメント間の類似性を最大化する。言い換えれば,それらは音楽レベルで意味的一致を確実にする。しかし,これらの粗粒法は,フレームレベルで,いくつかの必須または雑音のある要素を無視し,それは,音楽の有効な表現を学習するためのモデルに有害であるかもしれない。この目的に向けて,本論文は,PEMRと略称される,コントラスト学習フレームワークに基づく,Music表現のための,新しいポジティブ-nEgativeフレームマスクを提案する。具体的には,PEMRは,Log-Melスペクトログラム上のフレームマスクを生成するために,変圧器ブロックを活用する,正のNegative Mask生成モジュールを組み込んだ。重要な成分または必須成分をそれぞれマスキングすることにより,自己増強陰性および陽性試料を生成することができた。著者らは,同じ音楽からサンプリングした自己増強ポジティブ/ネガティブの両方に適応するための新しいコントラスト学習目的を考案した。4つの公開データセットに関する実験を行った。2つの音楽関連下流タスクの実験結果,音楽分類,およびカバー歌同定は,PEMRによって学習された音楽表現の一般化能力と伝達性を実証する。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

楽器音響 , 音響信号処理 , 人工知能

, ,

前のページに戻る