家庭活動のオーディオタグ付けのためのテンソルネットワークに基づくニューラルネットワークモデル【JST・京大機械翻訳】

Yang LiDong; Yue RenBo; Wang Jing; Liu Min

文献

J-GLOBAL ID：202202291892637536 整理番号：22A1179708

家庭活動のオーディオタグ付けのためのテンソルネットワークに基づくニューラルネットワークモデル【JST・京大機械翻訳】

Neural Network Model Based on the Tensor Network for Audio Tagging of Domestic Activities

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1179708&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1179708&from=J-GLOBAL&jstjournalNo=U7092A") }}

著者 (4件)： , , ,
資料名：
巻： 10 ページ： 863291 発行年： 2022年
JST資料番号： U7092A ISSN： 2296-424X 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：スイス (CHE) 言語：英語 (EN)

人口老化の重大な問題のために,国内活動のモニタリングはますます重要になっている。視覚データが光と環境からの干渉のために利用できないとき,国内活動のオーディオ標識は,非常に好適であった。この問題を解決することを目的として,テンソルネットワークに基づくニューラルネットワークモデルを,伝統的ニューラルネットワークより解釈可能な国内活動のオーディオ標識のために提案する。テンソルネットワークの導入はネットワークパラメータを圧縮し,訓練モデルの冗長性を低減し,良好な性能を維持した。最初に,入力オーディオのMelスペクトログラムの重要な特徴を畳み込みニューラルネットワーク(CNN)を通して抽出した。次に,それらをテンソルネットワークに対応する高次空間に変換した。空間構造情報と重要な特徴は,マトリックス生成物状態(MPS)を通してさらに抽出して,保持することができた。テンソルネットワークを用いるとき,特徴データの大きなパッチを小さな局所無順序パッチに分割した。テンソル列車分解に基づくテンソルネットワーク構造であるMPS層を通して最終標識結果を得る。提案方法を評価するために,DCASE2018チャレンジタスク5データセットを,家庭活動をモニターするために選択した。結果は,開発データセットと検証データセットの試験セットにおける提案モデルの平均F1スコアが87.7と85.9%に達し,それぞれベースラインシステムより3.2と2.8%高いことを示した。提案モデルは,国内活動のオーディオタグ付けのために,より良く,そして,より効率的に機能できることを検証した。Copyright 2022 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

著者キーワード (5件)： , , , ,

人工知能

引用文献 (34件)：

RaffertyJ, NugentCD, LiuJ, ChenL. From Activity Recognition to Intention Recognition for Assisted Living within Smart Homes. IEEE Trans Human-mach Syst (2017) 47(3):368-79. doi: 10.1109/thms.2016.2641388
ErdenF, VelipasalarS, AlkarAZ, CetinAE. Sensors in Assisted Living: A Survey of Signal and Image Processing Methods. IEEE Signal Process Mag (2016) 33(2):36-44. doi: 10.1109/msp.2015.2489978
PhanH, HertelL, MaassM, KochP, MazurR, MertinsA. Improved Audio Scene Classification Based on Label-Tree Embeddings and Convolutional Neural Networks. Ieee/acm Trans Audio Speech Lang Process (2017) 25(6):1278-90. doi: 10.1109/taslp.2017.2690564
GongY, ChungY-A, GlassJ. Psla: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation. Ieee/acm Trans Audio Speech Lang Process (2021) 29:3292-306. doi: 10.1109/taslp.2021.3120633
BursucA, PuyG, JainH. Separable Convolutions and Test-Time Augmentations for Low-Complexity and Calibrated Acoustic Scene Classification. Barcelona, Spain: Detection and Classification of Acoustic Scenes and Events 2021 (2021). doi: 10.1109/taslp.2021.3120633

, , , , ,

前のページに戻る