Conv-TasNet:音声分離のための理想時間-周波数振幅マスキング【JST・京大機械翻訳】

Luo Yi; Mesgarani Nima

文献

J-GLOBAL ID：201902213230799070 整理番号：19A1333047

Conv-TasNet:音声分離のための理想時間-周波数振幅マスキング【JST・京大機械翻訳】

Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=19A1333047&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=19A1333047&from=J-GLOBAL&jstjournalNo=W0508B") }}

著者 (2件)： ,
資料名：
巻： 27 号： 8 ページ： 1256-1266 発行年： 2019年
JST資料番号： W0508B ISSN： 2329-9290 CODEN： ITASFA 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

単一チャネル,話者独立音声分離法は最近大きな進歩を見ている。しかし,そのような方法の精度,待ち時間,および計算コストは不十分である。以前の方法の大部分は,混合信号の時間-周波数表現を通して分離問題を定式化した。それは,信号の位相と大きさのデカップリング,音声分離のための時間-周波数表現のサブ最適性,分光写真の計算における長い待ち時間を含んでいる。これらの欠点を解決するために,完全畳込み時間領域音声分離ネットワーク(Conv-TasNet),エンドツーエンド時間領域音声分離のための深い学習フレームワークを提案した。Conv-TasNetは,個々の話者を分離するために最適化された音声波形の表現を生成するために線形符号器を使用する。話者分離は,符号器出力に重み関数(マスク)の集合を適用することによって達成される。次に,修正エンコーダ表現を線形復号器を用いて波形に逆変換した。マスクは,積層一次元拡張畳込みブロックから成る時間畳込みネットワークを用いて見出される。これにより,小モデルサイズを維持しながら,音声信号の長期依存性をモデル化することができる。提案したConv-TasNetシステムは,2-および3-話者混合物の分離において,以前の時間-周波数マスキング法よりも著しく優れている。さらに,Conv-TasNetは,人間の聴者による客観的な歪み測度と主観的品質評価の両方によって評価されるように,2話者音声分離におけるいくつかの理想的な時間-周波数マグニチュードマスクを凌ぐ。最後に,Conv-TasNetには,かなり小さいモデルサイズとより短い最小待ち時間があり,オフラインとリアルタイム音声分離応用の両方のための適切な解決策となる。したがって,本研究は,実世界音声処理技術のための音声分離システムの実現に向けての主要なステップを示す。Copyright 2019 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

音声処理

, ,

前のページに戻る