HTS-AT:音響分類と検出のための階層的トークン-セマンティックオーディオ変圧器【JST・京大機械翻訳】

Chen Ke; Du Xingjian; Zhu Bilei; Ma Zejun; Berg-Kirkpatrick Taylor; Dubnov Shlomo

プレプリント

J-GLOBAL ID：202202204293319404 整理番号：22P0283486

HTS-AT:音響分類と検出のための階層的トークン-セマンティックオーディオ変圧器【JST・京大機械翻訳】

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年02月01日プレプリントサーバーでの情報更新日： 2022年02月01日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

オーディオ分類は,オーディオサンプルをそれらの対応するラベルにマッピングする重要なタスクである。最近,自己注意機構を有する変圧器モデルをこの分野で採用した。しかしながら,既存のオーディオ変圧器は,大きなGPUメモリと長い訓練時間を必要とし,一方,高性能を達成するために事前訓練された視覚モデルに依存し,それはオーディオタスクにおけるモデルのスケーラビリティを制限する。これらの問題と戦うために,HTS-AT:モデルサイズと訓練時間を減らすために階層構造を持つオーディオ変圧器を導入した。さらに,クラス特徴マップに最終出力を写像するためにトークンセマンティックモジュールと組合せ,その結果,オーディオイベント検出(即ち,時間における位置決め)のためのモデルを可能にした。著者らは,AudioSetとESC-50に関して新しい最先端(SOTA)結果を達成して,Speech Command V2に関してSOTAを等しくする,オーディオ分類の3つのデータセットに関するHTS-ATを評価した。また,それは以前のCNNベースのモデルよりイベント位置確認においてより良い性能を達成した。さらに,HTS-ATは以前のオーディオ変圧器の35%のモデルパラメータと15%の訓練時間を必要とする。これらの結果はHTS-ATの高性能と高効率を実証した。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , 【Automatic Indexing@JST】

音声処理 , パターン認識

, , , , ,

前のページに戻る