文献
J-GLOBAL ID:201902213230799070   整理番号:19A1333047

Conv-TasNet:音声分離のための理想時間-周波数振幅マスキング【JST・京大機械翻訳】

Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
著者 (2件):
資料名:
巻: 27  号:ページ: 1256-1266  発行年: 2019年 
JST資料番号: W0508B  ISSN: 2329-9290  CODEN: ITASFA  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
単一チャネル,話者独立音声分離法は最近大きな進歩を見ている。しかし,そのような方法の精度,待ち時間,および計算コストは不十分である。以前の方法の大部分は,混合信号の時間-周波数表現を通して分離問題を定式化した。それは,信号の位相と大きさのデカップリング,音声分離のための時間-周波数表現のサブ最適性,分光写真の計算における長い待ち時間を含んでいる。これらの欠点を解決するために,完全畳込み時間領域音声分離ネットワーク(Conv-TasNet),エンドツーエンド時間領域音声分離のための深い学習フレームワークを提案した。Conv-TasNetは,個々の話者を分離するために最適化された音声波形の表現を生成するために線形符号器を使用する。話者分離は,符号器出力に重み関数(マスク)の集合を適用することによって達成される。次に,修正エンコーダ表現を線形復号器を用いて波形に逆変換した。マスクは,積層一次元拡張畳込みブロックから成る時間畳込みネットワークを用いて見出される。これにより,小モデルサイズを維持しながら,音声信号の長期依存性をモデル化することができる。提案したConv-TasNetシステムは,2-および3-話者混合物の分離において,以前の時間-周波数マスキング法よりも著しく優れている。さらに,Conv-TasNetは,人間の聴者による客観的な歪み測度と主観的品質評価の両方によって評価されるように,2話者音声分離におけるいくつかの理想的な時間-周波数マグニチュードマスクを凌ぐ。最後に,Conv-TasNetには,かなり小さいモデルサイズとより短い最小待ち時間があり,オフラインとリアルタイム音声分離応用の両方のための適切な解決策となる。したがって,本研究は,実世界音声処理技術のための音声分離システムの実現に向けての主要なステップを示す。Copyright 2019 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
音声処理 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る