ConceptBeam:概念に基づく目的音声抽出

大石康智; DELCROIX Mark; 落合翼; 荒木章子; 竹内大起; 仁泉大輔; 木村昭悟; 原田登; 柏野邦夫

文献

J-GLOBAL ID：202202261648559454 整理番号：22A1077615

ConceptBeam:概念に基づく目的音声抽出

ConceptBeam: Concept driven target speech extraction.

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1077615&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1077615&from=J-GLOBAL&jstjournalNo=G0381C") }}

著者 (9件)： , , , , , , , ,
資料名：
巻： 2022 号：春季ページ： ROMBUNNO.1-1P-4 発行年： 2022年02月23日
JST資料番号： G0381C ISSN： 1880-7658 資料種別：会議録 (C)
記事区分：短報発行国：日本 (JPN) 言語：日本語 (JA)

・意味情報に対応する概念を手がかりとして,混合音・声信号から目的音声信号を抽出するConceptBeamの提案評価実験を実施。
・2名の話者が個別の画像ついて説明する混合音声信号を入力とし,画像によって指定された概念に関わる音声信号を抽出したところ,提案手法の基本動作を確認。
・音声の重なりや雑音を考慮した画像/音声埋め込みネットワークの学習,またはこのネットワークを含めたConceptBeam全体を最適化する学習手続きの検討が必要。
・ある画像やトピックを複数の話者が会話するシーンにおいて,それらをまとめて目的信号として抽出するようConceptBeamを拡張することも今後予定。

, , , , , , ,
,

音声処理 , 人工知能

引用文献 (4件)：

K. Zmolikova et al., “SpeakerBeam: Speaker Aware Neural Network for Target Speaker Extraction in Speech Mixtures,” IEEE Journal of Selected Topics in Signal Processing, vol.13, no.4, 2019.
M. Delcroix et al., “Speaker activity driven neural speech extraction,” in Proc. ICASSP, 2021.
D. Harwath et al., “Jointly discovering visual objects and spoken words from raw sensory input,” in Proc. ICCV, 2019.
Y. Ohishi et al., “Trilingual semantic embeddings of visually grounded speech with self-attention mechanisms,” in Proc. ICASSP, 2020.

前のページに戻る