TMS:話者埋込みのための時間的マルチスケールバックボーン設計【JST・京大機械翻訳】

Zhang Ruiteng; Wei Jianguo; Lu Xugang; Lu Wenhuan; Jin Di; Xu Junhai; Zhang Lin; Ji Yantao; Dang Jianwu

プレプリント

J-GLOBAL ID：202202200814041836 整理番号：22P0305748

TMS:話者埋込みのための時間的マルチスケールバックボーン設計【JST・京大機械翻訳】

TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (9件)： , , , , , , , ,
資料名：
発行年： 2022年03月17日プレプリントサーバーでの情報更新日： 2022年03月17日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

話者埋込みは話者情報が必要とされる多くの音声アプリケーションに対する識別話者特徴を探索するための重要なフロントエンドモジュールである。話者埋込みのための現在のSOTAバックボーンネットワークを設計して,話者表現のためにマルチブランチネットワークアーキテクチャを有する発話からマルチスケール特徴を集約した。しかし,単純な完全畳み込み操作によるマルチスケール特徴の多くの枝を素早く追加することは,モデルパラメータと計算複雑性の急速な増加のため,性能を効果的に改善できなかった。したがって,現在の最先端のネットワークアーキテクチャでは,限られた数の時間スケールに対応する少数の分岐だけが話者埋込みのために設計できる。この問題に取り組むために,本論文では,マルチスケール分岐が,計算コストの増加なしに,話者埋込みネットワークにおいて効率的に設計できる,効果的な時間的マルチスケール(TMS)モデルを提案した。新しいモデルは従来のTDNNに基づいており,そこではネットワークアーキテクチャが2つのモデリングオペレータにスマートに分離される:チャネルモデリングオペレータと時間マルチブランチモデリングオペレータ。時間的多分岐演算子における時間的マルチスケールの追加は,パラメータ数のわずかなビット増加だけを必要とし,従って,大きな時間スケールでより多くの枝を追加するためのより多くの計算予算を節約する。さらに,推論段階において,推定速度を上げるためにTMSベースモデルを単一経路ベーストポロジーに変換するための系統的再パラメータ化法を開発した。ドメイン内およびドメイン外条件に対する自動話者検証(ASV)のための新しいTMS法の性能を検討した。結果は,TMSベースのモデルが,SOTA ASVモデルよりも性能の顕著な増加を得て,一方,より速い推論速度を持つことを示した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識

, , , , ,

前のページに戻る