プレプリント
J-GLOBAL ID:202202210321526755   整理番号:22P0311745

wav2vec2.0を用いた変圧器によるロバストな話者認識【JST・京大機械翻訳】

Robust Speaker Recognition with Transformers Using wav2vec 2.0
著者 (5件):
資料名:
発行年: 2022年03月28日  プレプリントサーバーでの情報更新日: 2022年03月28日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
教師なし音声表現学習における最近の進歩は,新しいアプローチを発見し,多様なタイプの音声処理タスクに対して新しい最先端技術を提供する。本論文では,話者認識タスクに対するwav2vec2.0深層音声表現を用いた研究を示した。簡単なTDNNによるwav2vec2.0の提案した微調整手順と付加的角度マージン損失を用いた統計プールバックエンドは,異なるドメインでよく一般化された深い話者埋込み抽出器を得ることを可能にした。コントラスト予測符号化予訓練方式は,ラベルなしデータの電力を効率的に利用し,従って,強力な変圧器ベースの話者認識システムへのドアを開いた。本研究で得られた実験結果は,比較的小さなセットとデータのクリーンバージョンで微調整が可能であることを実証した。微調整の間のデータ増強を用いて,話者検証における付加的性能利得を提供した。本研究では,話者認識システムを広範囲のよく知られた検証プロトコル:VoxCeleb1洗浄試験セット,NIST SRE 18開発セット,NIST SRE 2016およびNIST SRE 2019評価セット,VOiCES評価セット,NIST 2021 SRE,およびCTSチャレンジセットについて分析した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る