文献
J-GLOBAL ID:201802235731677857   整理番号:18A0030197

エンドツーエンドASR目的を持つ音声強調作業をするか:多チャンネルエンドツーエンド音声認識の実験的解析【Powered by NICT】

Does speech enhancement work with end-to-end ASR objectives?: Experimental analysis of multichannel end-to-end ASR
著者 (3件):
資料名:
巻: 2017  号: MLSP  ページ: 1-6  発行年: 2017年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
最近著者らは,多チャネル音声強調と音声認識の構成要素を統合した単一ニューラルネットワークアーキテクチャと自動音声認識(ASR)のためのその基本的な有用性を示す新しい多チャネルエンドツーエンド音声認識アーキテクチャを提案した。しかし,提案した統合システムの挙動は十分に明らかに残っている。未解決の問題は音声強調成分は音声強調(ノイズ抑制)能力を本当にかどうかである,音声強調目的の代わりにエンドツーエンドASR目標に基づいて最適化である。本論文では,CHiME4コーパスを用いた系統的評価実験を行うことにより,この問題を解いた。最初の統合エンドツーエンドアーキテクチャは二信号レベル測定:信号todistortion比と音声品質の知覚評価を観察することによって従来の代替(遅延和ビームフォーマ)のそれより優れていることを適切な音声強調能力を獲得できることが分かった。著者らの知見は,統合システムの性能をさらに増加させるために,後期音声認識成分のパワーを高める必要があることを示唆した。しかし,不十分な量多チャネル雑音のある音声データが利用可能である。これらの状況に基づいて,次の音声認識成分の追加的訓練のための,例えば,WSJコーパス,大量単一チャネルクリーン音声のデータを用いての効果を調べた。もクリーン音声を用いて提案アプローチは,マルチチャネル雑音ASRタスクにおける多チャネルエンドツーエンドアーキテクチャの全性能を著しく改善することを示した。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 

前のページに戻る