強化再構成残差ネットワークに基づく歌声検出アルゴリズムに関する新しいアプローチ研究【JST・京大機械翻訳】

Liu Lilin

文献

J-GLOBAL ID：202202249614849067 整理番号：22A1039839

強化再構成残差ネットワークに基づく歌声検出アルゴリズムに関する新しいアプローチ研究【JST・京大機械翻訳】

The New Approach Research on Singing Voice Detection Algorithm Based on Enhanced Reconstruction Residual Network

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1039839&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1039839&from=J-GLOBAL&jstjournalNo=U7776A") }}

著者 (1件)：
資料名：
巻： 2022 ページ： Null 発行年： 2022年
JST資料番号： U7776A ISSN： 2314-4629 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：イギリス (GBR) 言語：英語 (EN)

インターネット技術の開発によって,マルチメディア情報資源は急速に増加している。マルチメディア音楽ライブラリにおける大量の資源に直面して,人々がそれらのニーズを満たすターゲット音楽を見つけるのは,非常に難しい。コンピュータ解析を実現し,音楽資源に対するユーザのニーズを認識する方法は,人間-コンピュータインタラクション能力の将来の発展の目標になった。コンテンツベース音楽情報検索アプリケーションは主に音楽の自動分類と認識に具体化されている。従来のフィードフォワードニューラルネットワークは,歌声特徴を抽出するとき,局所情報を失う傾向がある。この理由のために,ネットワーク伝搬プロセスにおける情報持続性の影響を完全に考慮することに基づいて,本論文は,ネットワークの深さを増加する間,各層の学習された特徴を効果的に統合できる強化2段階超解像再構成残差ネットワークを提案した。再構成の最初の段階は,情報の統合を改善するために,高密度残差ユニットを通して音声特徴の階層的学習を完了することである。再構成の第二段階は,再構成誤差を減らすために第一段階で学習された歌声の高周波情報に関する残留再学習を主に行うことである。これらの2つのステージの中央において,モデルは,情報冗長性を減らし,畳み込みカーネルの受容野を増加させる二重目的を達成するために,特徴スケーリングと拡張畳込みを導入する。高分解能ニューラルネットワークに基づく単音歌声分離を提案した。高解像度ネットワークには異なる解像度の並列サブネットワークがあるので,それはまた,オリジナルの分解能表現と多重低解像度表現を持ち,シリアルネットワークダウンサンプリング効果によって引き起こされた情報損失を避けて,新しい意味表現を作り出すために多重特徴融合を繰り返して,包括的,高精度,および高度に抽象的な特徴の学習を可能にする。本論文では,予測時間振幅スペクトログラムの実値を正しく推定するために,時間スペクトログラムをモデル化するために高分解能ニューラルネットワークを利用した。データセットMIR-1Kに関する実験は,電流主導SH-4Stackモデルと比較して,本論文における方式が分離性能を測定するためにSDR,SIR,およびSAR指標を改善し,本論文におけるアルゴリズムの有効性を確認した。Copyright 2022 Lilin Liu. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

情報検索一般 , 楽器音響

引用文献 (20件)：

W. Yuan, B. He, S. Wang, J. Wang, M. Unoki, "Enhanced feature network for monaural singing voice separation," Speech Communication, vol. 106, pp. 1-6, 2019.
C. Sun, M. Zhang, R. Wu, J. Lu, G. Xian, Q. Yu, X. Gong, R. Luo, "A convolutional recurrent neural network with attention framework for speech separation in monaural recordings," Scientific Reports, vol. 11, no. 1, pp. 1434, 2021.
S. Yu, Y. Yu, X. Chen, W. Li, "HANME: hierarchical attention network for singing melody extraction," IEEE Signal Processing Letters, vol. 28, pp. 1006-1010, 2021.
C. C. Bhanja, D. Bisharad, R. H. Laskar, "Deep residual networks for pre-classification based Indian language identification," Journal of Intelligent & Fuzzy Systems, vol. 36, no. 3, pp. 2207-2218, 2019.
K. Tan, J. Chen, D. L. Wang, "Gated residual networks with dilated convolutions for monaural speech enhancement," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 1, pp. 189-198, 2018.

, , , , ,

前のページに戻る