文献
J-GLOBAL ID:202002230506424822   整理番号:20A1865287

クロスモーダル埋込みを用いた顔-音声マッチング【JST・京大機械翻訳】

Face-Voice Matching using Cross-modal Embeddings
著者 (3件):
資料名:
号: MM ’18  ページ: 1011-1019  発行年: 2018年 
JST資料番号: D0698C  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
顔音声マッチングは,顔と音声の間の対応を見つけるタスクである。認知科学における多くの研究は,顔音声マッチングタスクにおける人間能力を確認した。このような能力は,自然の人間機械相互作用システムおよび多くの他のアプリケーションの作成に有用である。本論文では,顔画像と音声特性の間のクロスモーダル埋込みを学習する顔音声マッチングモデルを提案した。1,078人から顔画像と発話から成る新しいFVCelebデータセットを構築した。これらの人をMS-Celeb-1M顔画像データセットとVoxCelebオーディオデータセットから選択した。同じ性別のオーディオ入力と2つの顔画像候補を有する2つの代替強制選択マッチングタスクにおいて,著者らのモデルは,それぞれFVCelebとGRIDコーパスの部分集合に関して62.2%と56.5%の精度を達成した。これらの結果は,認知科学研究で報告されたヒト性能と非常に類似している。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る