短い発話における遠視野話者認識のための深い話者埋込み【JST・京大機械翻訳】

Gusev Aleksei; Volokhov Vladimir; Andzhukaev Tseren; Novoselov Sergey; Lavrentyeva Galina; Volkova Marina; Gazizullina Alice; Shulipa Andrey; Gorlanov Artem; Avdeeva Anastasia; Ivanov Artem; Kozlov Alexander; Pekhovsky Timur; Matveev Yuri

プレプリント

J-GLOBAL ID：202202210099249012 整理番号：22P0111860

短い発話における遠視野話者認識のための深い話者埋込み【JST・京大機械翻訳】

Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (14件)： , , , , , , , , , , , , ,
資料名：
発行年： 2020年02月14日プレプリントサーバーでの情報更新日： 2020年02月14日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深い話者埋込みに基づく話者認識システムは,初期NIST SRE(話者認識評価)データセットに対して得られた結果に従って,制御条件で顕著な性能を達成した。実用的観点から,仮想支援(アマゾンAlexa,Google Home,AppleSiriなど)への関心増加を考慮して,非制御雑音環境条件における短い発話に関する話者検証は,最も挑戦的な高要求タスクの1つである。本論文では,2つの目標の達成を目的としたアプローチを提示した:a)環境雑音,残響およびb)の存在下で遠方場話者検証システムの品質を改善することは,短い発話に対するシステム品質劣化を低減する。これらの目的のために,TDNN(時間遅延ニューラルネットワーク)とResNet(Residual Neural Network)ブロックに基づく深層ニューラルネットワークアーキテクチャを考察した。最先端の埋込み抽出器とそれらの訓練手順を実験した。得られた結果は,ResNetアーキテクチャが,長期と短期発話の両方に対する話者検証品質に関して,標準xベクトル手法より優れていることを確認した。また,音声活動検出器,異なるスコアリングモデル,適応およびスコア正規化技術の影響を調べた。VoxCeleb1,VoxCeleb2およびVOiCESデータセットに対する公開利用可能なデータおよび検証プロトコルに対する実験結果を示した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識

, , , ,

前のページに戻る