文献
J-GLOBAL ID:202202215063711061   整理番号:22A0554663

雑音中の音声了解度改善のための雑音性音声のエンドツーエンドニューラルベース修正【JST・京大機械翻訳】

End-to-End Neural Based Modification of Noisy Speech for Speech-in-Noise Intelligibility Improvement
著者 (3件):
資料名:
巻: 30  ページ: 162-173  発行年: 2022年 
JST資料番号: W0508B  ISSN: 2329-9290  CODEN: ITASFA  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
音声の知能は,背景雑音のような有害な近端聴取条件に提示されるとき,かなり低減できる。そのような条件における音声の認識を改善するために,複数のアプローチが示唆されてきた。しかし,これらのアプローチの大部分は,クリーン入力音声で動作するように設計された。従って,それらは,雑音入力音声が全く一般的であるテレフォニーや補聴器のような実世界アプリケーションで展開するとき,重大な制限がある。本論文では,上記の問題に対するエンドツーエンドニューラルネットワークアプローチを提示し,それは,入力雑音を効果的に減らし,そして,悪条件における聴取者に対する明瞭度を改善する。そのために,可変拡張因子を有する畳み込みニューラルネットワークトポロジーを提案し,入力として生の音声を用いて因果と非因果形態の両方を評価した。Teacher-Student訓練戦略を採用し,そこでは,Teacherは,スペクトル成形とそれに続く動的範囲圧縮(SSDRC)に基づく,十分に確立された音声雑音明瞭度エンハンサーである。評価は,ビットメトリック(SIIB)の音声可理解性,およびギリシャHarvardコーパスの主観的利用の両方を用いて,客観的に行う。SSDRCの雑音ロバストマルチバンドバージョンをベースラインとして使用した。ベースラインと比較して,0dB入力SNRにおいて,提案ニューラルネットワークシステムは,変動および静止バックグラウンドにおいて,それぞれ,約380%および230%の相対的SIIB改善を達成した。主観的に,提案モデルは,ベースラインと比較して,0dB入力SNRで25%から60%の定常雑音で,また5dB入力SNRで約52%から75%まで,聴取者のキーワード補正率を増加させた。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
音声処理 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る