抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
話者埋込みは話者情報が必要とされる多くの音声アプリケーションに対する識別話者特徴を探索するための重要なフロントエンドモジュールである。話者埋込みのための現在のSOTAバックボーンネットワークを設計して,話者表現のためにマルチブランチネットワークアーキテクチャを有する発話からマルチスケール特徴を集約した。しかし,単純な完全畳み込み操作によるマルチスケール特徴の多くの枝を素早く追加することは,モデルパラメータと計算複雑性の急速な増加のため,性能を効果的に改善できなかった。したがって,現在の最先端のネットワークアーキテクチャでは,限られた数の時間スケールに対応する少数の分岐だけが話者埋込みのために設計できる。この問題に取り組むために,本論文では,マルチスケール分岐が,計算コストの増加なしに,話者埋込みネットワークにおいて効率的に設計できる,効果的な時間的マルチスケール(TMS)モデルを提案した。新しいモデルは従来のTDNNに基づいており,そこではネットワークアーキテクチャが2つのモデリングオペレータにスマートに分離される:チャネルモデリングオペレータと時間マルチブランチモデリングオペレータ。時間的多分岐演算子における時間的マルチスケールの追加は,パラメータ数のわずかなビット増加だけを必要とし,従って,大きな時間スケールでより多くの枝を追加するためのより多くの計算予算を節約する。さらに,推論段階において,推定速度を上げるためにTMSベースモデルを単一経路ベーストポロジーに変換するための系統的再パラメータ化法を開発した。ドメイン内およびドメイン外条件に対する自動話者検証(ASV)のための新しいTMS法の性能を検討した。結果は,TMSベースのモデルが,SOTA ASVモデルよりも性能の顕著な増加を得て,一方,より速い推論速度を持つことを示した。【JST・京大機械翻訳】