ECAPA-TDNNおよびWav2Vec2.0埋込みのスタタリング検出への導入【JST・京大機械翻訳】

Sheikh Shakeel Ahmad; Sahidullah Md; Hirsch Fabrice; Ouni Slim

プレプリント

J-GLOBAL ID：202202220587272274 整理番号：22P0325061

ECAPA-TDNNおよびWav2Vec2.0埋込みのスタタリング検出への導入【JST・京大機械翻訳】

Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年04月04日プレプリントサーバーでの情報更新日： 2022年04月04日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

st音検出(SD)タスクにおける高度な深層学習(DL)アーキテクチャの採用は,利用可能なデータセットの限られたサイズのために挑戦的である。この目的のために,本研究では,異なるタスクのための大規模オーディオデータセット上で訓練された事前訓練された深層モデルで抽出した音声埋込みの応用を紹介した。特に,VoxCelebとLibriSpeechデータセットで訓練された,それぞれ強調されたチャネル注意,伝搬,および凝集-時間遅れニューラルネットワーク(ECAPA-TDNN)とWav2Vec2.0モデルを利用して得られたオーディオ表現を調査した。埋込みを抽出した後に,著者らは, st音検出タスクのために,k-最近傍,GaussナイーブBayes,およびニューラルネットワークのようないくつかの伝統的分類器でベンチマークした。限られたSEP-28kデータセットのみに訓練された標準SDシステムと比較して,著者らは,ベースライン上の全体精度に関して16.74%の相対的改善を得た。最後に,Wav2Vec2.0の2つの埋込みと連結多重層を組み合わせると,SD性能をそれぞれ1%と2.64%まで改善することを示した。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識 , 音声処理 , 人工知能

前のページに戻る