音声分離と抽出のための話者-条件連鎖モデル【JST・京大機械翻訳】

Shi Jing; Xu Jiaming; Fujita Yusuke; Watanabe Shinji; Xu Bo

プレプリント

J-GLOBAL ID：202202200025751047 整理番号：22P0163636

音声分離と抽出のための話者-条件連鎖モデル【JST・京大機械翻訳】

Speaker-Conditional Chain Model for Speech Separation and Extraction

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年06月24日プレプリントサーバーでの情報更新日： 2020年06月24日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

会話分離を,カクテルパーティー問題に取り組むために広く探索した。しかし,これらの研究は,実際のシナリオのための十分な一般化能力からは,まだ遠い。本研究では,複雑な音声記録を処理するために,Speker-Conditional連鎖モデルと呼ばれる共通戦略を開発した。提案方法において,著者らのモデルは,シーケンス対シーケンスモデルに基づく観測から話者の可変数の同一性を最初に推論する。次に,音声源を抽出するための条件として,推定話者からの情報を取り上げる。全体の観測から予測された話者情報によって,著者らのモデルは,マルチラウンド長記録のための従来の音声分離と話者抽出の問題を解決するのに役立った。標準完全重複音声分離ベンチマークからの実験は,事前研究に匹敵する結果を示し,一方,提案モデルは,マルチラウンド長記録に対してより良い適応性を得た。【JST・京大機械翻訳】

, , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 音声処理

, , ,

前のページに戻る