オーディオビジュアル話者ダイアリゼーションのための自己教師つき学習【JST・京大機械翻訳】

Ding Yifan; Xu Yong; Zhang Shi-Xiong; Cong Yahuan; Wang Liqiang

プレプリント

J-GLOBAL ID：202202205334749903 整理番号：22P0111251

オーディオビジュアル話者ダイアリゼーションのための自己教師つき学習【JST・京大機械翻訳】

Self-supervised learning for audio-visual speaker diarization

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年02月12日プレプリントサーバーでの情報更新日： 2020年02月12日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

特定の話者の音声セグメントを見つけるための話者ダイラリゼーションは,ビデオ会議や人間-コンピュータインタラクションシステムのような人間中心アプリケーションで広く使われてきた。本論文では,大規模ラベリング努力なしに話者ダイラリゼーションの問題を扱うための自己教師付きオーディオビデオ同期学習法を提案した。2つの新しい損失関数:動的三重項損失と多項損失を導入することによって,以前のアプローチを改善した。実世界の人間-コンピュータインタラクションシステム上でテストし,結果は,著者らの最良モデルが,+8%F1スコアの注目すべき利得と,ダイラリゼーション誤り率低減をもたらすことを示す。最後に,中国語におけるオーディオビデオデータセットの空格子点を満たすように設計した新しい大規模オーディオビデオコーパスを導入した。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識 , 人工知能

, , ,

前のページに戻る