VoViT:低待ち時間グラフベースオーディオビジュアル音声分離変圧器【JST・京大機械翻訳】

Montesinos Juan F.; Kadandale Venkatesh S.; Haro Gloria

プレプリント

J-GLOBAL ID：202202213804108520 整理番号：22P0300749

VoViT:低待ち時間グラフベースオーディオビジュアル音声分離変圧器【JST・京大機械翻訳】

VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年03月08日プレプリントサーバーでの情報更新日： 2022年07月19日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,音声と歌声音声の2つのシナリオにおいて,低待ち時間で最先端の結果を生成する音声分離のためのオーディオビジュアルアプローチを示した。モデルは2段階ネットワークに基づいている。動き手がかりは,顔ランドマークを処理する軽量グラフ畳込みネットワークで得られる。次に,オーディオと運動特徴の両方を,孤立ターゲット源のかなり良い推定を生成するオーディオビジュアル変圧器に供給した。第二段階では,音声のみのネットワークで支配的な音声が増強される。異なるアブレーション研究と最先端の方法との比較を示した。最後に,音声分離のタスクにおける音声分離のために訓練されたモデルの伝達性を調べた。デモス,コード,および重量は,https://ipcv.github.io/VoViT/で利用可能である。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

音声処理

, ,

前のページに戻る