抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層学習の進歩により,自動音声認識の認識性能は大きく向上した。一方,環境雑音が厳しい場合には,単語や発話箇所の誤検出が増え,認識精度の劣化の問題が残っている。この問題を解決するため,雑音を抑制し目的の音声のみを強調する手法,すなわち音声強調が数多く提案されている。ほとんどの場合,音声強調では,音源に関するいくつかの仮定を必要とする。さらに,従来の音声強調手法は,単一モデルまたはネットワークを用いて音声を強調するため,入力信号の鍵となる特徴を十分に活かしきれていない。本稿では,アンサンブル時間周波数マスクを用いたビームフォーミングに基づく音声強調手法について報告する。アンサンブル時間周波数マスクは,複数の音声強調手法から複数の時間周波数マスクを推定し,統合することにより生成される。複数の手法から推定された時間周波数マスクを使用することで,処理のロバスト性の向上が期待できる。著者らは,人間の聴感と相関させたPESQとSTOIを用いてCHiME-3 dataset上で提案手法を評価した。両評価指標において,提案手法はアンサンブルなしの手法より優れており,提案手法の有効性を示している。さらに,著者らは,提案手法のアンサンブル手法について検証実験を行った。(翻訳著者抄録)