クロスモーダル埋込みを用いた顔-音声マッチング【JST・京大機械翻訳】

Horiguchi Shota; Kanda Naoyuki; Nagamatsu Kenji

文献

J-GLOBAL ID：202002230506424822 整理番号：20A1865287

クロスモーダル埋込みを用いた顔-音声マッチング【JST・京大機械翻訳】

Face-Voice Matching using Cross-modal Embeddings

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1865287&from=J-GLOBAL&jstjournalNo=D0698C") }}

著者 (3件)： , ,
資料名：
号： MM ’18 ページ： 1011-1019 発行年： 2018年
JST資料番号： D0698C 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

顔音声マッチングは,顔と音声の間の対応を見つけるタスクである。認知科学における多くの研究は,顔音声マッチングタスクにおける人間能力を確認した。このような能力は,自然の人間機械相互作用システムおよび多くの他のアプリケーションの作成に有用である。本論文では,顔画像と音声特性の間のクロスモーダル埋込みを学習する顔音声マッチングモデルを提案した。1,078人から顔画像と発話から成る新しいFVCelebデータセットを構築した。これらの人をMS-Celeb-1M顔画像データセットとVoxCelebオーディオデータセットから選択した。同じ性別のオーディオ入力と2つの顔画像候補を有する2つの代替強制選択マッチングタスクにおいて,著者らのモデルは,それぞれFVCelebとGRIDコーパスの部分集合に関して62.2%と56.5%の精度を達成した。これらの結果は,認知科学研究で報告されたヒト性能と非常に類似している。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , ,

著者キーワード (4件)： , , ,

パターン認識

, , ,

前のページに戻る