文献
J-GLOBAL ID:202402286164094306   整理番号:24A2567453

Video Vision Transformerに基づく音源定位の提案

著者 (7件):
資料名:
巻: 42nd  ページ: ROMBUNNO.3C4-02  発行年: 2024年 
JST資料番号: L4867A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本稿では,深層学習を用いた音源定位(SSL)について述べる。深層学習を用いたSSLは広く研究されているが,主に2つの課題がある:音源定位に不可欠な時間的特徴を適切に扱えない,SSLの学習に表現力の高いネットワークを用いていない。本論文では,これらの課題を解決するために,音響特徴量のストライド分割と,動画認識で高い性能を持つことで知られるVideo Vision Transformerの導入を提案した。実際の音声を用いた実験の結果,提案手法が従来手法より優れていることを示した。(翻訳著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (4件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  図形・画像処理一般  ,  人工知能  ,  ロボットの設計・製造・構造要素 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る