文献
J-GLOBAL ID:202202233160206976   整理番号:22A0554664

楽器音の埋込み表現の学習と評価に対する話者認識アプローチの利用【JST・京大機械翻訳】

Use of Speaker Recognition Approaches for Learning and Evaluating Embedding Representations of Musical Instrument Sounds
著者 (3件):
資料名:
巻: 30  ページ: 367-377  発行年: 2022年 
JST資料番号: W0508B  ISSN: 2329-9290  CODEN: ITASFA  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
意味的に新しい機器を表現できる音楽機器音のための埋込み空間の構築は,マルチインストレント合成や刺激移動のような下流音楽生成タスクにとって重要である。自動話者検証(ASV)のフレームワークは,非意味話者の同一性を検証するためのアーキテクチャと評価方法論を提供し,これらを,学習のタスクのために再目的にし,そして,非セエンス機器をサポートできる音楽機器音埋込み空間を評価できる。最先端のASV技術から借り,著者らは,SincNetフロントエンド,ResNetアーキテクチャ,および角度ソフトマックス目的関数を使用する音楽機器認識モデルを構築した。NSynthとRWCデータセットに関する実験は,非分離機器の等価誤り率(EER)に関して著者らのモデルの有効性を示し,そして,アブレーション研究は,データ増強と角度ソフトマックス目的の重要性を示した。また,実験は,Melフィルタバンク初期化に関してSincNetを初期化するためにCQTベースのフィルタバンクを使用する利点を示した。t-SNE可視化とプロービング分類タスクを用いて,学習埋込み空間の更なる相補的解析を実施し,マルチタスク学習ターゲットとしての機器ファミリーラベルを含むことは,埋込み空間を正則化し,有用な構造を取り込むことを助け,訓練中に含まれていないプレイスタイルのような有意義な情報が,非セエンス機器の埋込みに含まれることを示した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  パターン認識 

前のページに戻る