低遅延話者独立連続音声分離【JST・京大機械翻訳】

Yoshioka Takuya; Chen Zhuo; Liu Changliang; Xiao Xiong; Erdogan Hakan; Dimitriadis Dimitrios

文献

J-GLOBAL ID：201902210457948705 整理番号：19A1489008

低遅延話者独立連続音声分離【JST・京大機械翻訳】

Low-latency Speaker-independent Continuous Speech Separation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=19A1489008&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=19A1489008&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (6件)： , , , , ,
資料名：
巻： 2019 号： ICASSP ページ： 6980-6984 発行年： 2019年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

話者独立連続音声分離(SI-CSS)は,未知話者の重複音声を含む連続音声ストリームを,重複音声セグメントを含まない固定数の連続信号に変換するタスクである。それぞれの発話の分離,または洗浄されたバージョンは,SI-CSSの出力チャネルの1つから,分割されずに複数のチャネルに分布されることなく,非決定的に生成される。典型的なアプリケーションシナリオは,マイクロホンアレイで記録された会議のような,マルチパーティ会話を転写することである。出力信号は,音声重なりを含まないため,音声認識エンジンに簡単に送ることができる。以前のSI-CSS法は,置換不変訓練とデータ駆動ビームフォーマにより訓練されたニューラルネットワークを使用し,従って多くの処理待ち時間を必要とする。本論文では,マイクロホンアレイベースの会議転写タスクにおいて,性能が以前の方法に匹敵する低待ち時間SI-CSS法を提案した。これは,(1)二重バッファリング方式と組み合わせた新しい音声分離ネットワークアーキテクチャと(2)固定ビームフォーマのセットによる強化を行うことにより達成される。Copyright 2019 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

音声処理 , パターン認識 , 音響信号処理

, ,

前のページに戻る