文献
J-GLOBAL ID:202202269884103554   整理番号:22A0475448

小児音声の改良型ASRのためのホルマント修正法【JST・京大機械翻訳】

A formant modification method for improved ASR of children’s speech
著者 (5件):
資料名:
巻: 136  ページ: 98-106  発行年: 2022年 
JST資料番号: W1590A  ISSN: 0167-6393  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
成人の音声を用いて訓練されたシステムが子供の音声を認識するのに使用されるとき,子供と成人の音声認識システムの音響特性の違いが自動音声認識システムの性能を低下させる。この性能劣化は訓練と試験の間の音響不整合による。音響ミスマッチの主な源の一つは,成人と子供の話者の間の声帯共鳴(ホルマント周波数)の差である。本研究は,成人の音声のホルマントをよりよく対応させるために,子供の音声のホルマントを修正することによってホルマント周波数における不整合を減らすことを目的とする。これは,子供の音声から計算された線形予測(LP)スペクトルのワーピングによって行われる。子供の音声からフレームベースの方法で計算された縦糸LPスペクトルを,対応するLP残差を用いて,フォルマント構造が成人の音声に近い音声を合成する。成人の音声を用いて訓練されたASRシステムの試験に用いるとき,ワーピングは訓練と試験の間の音声のスペクトル不整合を低減し,子供の音声の認識におけるシステム性能を改善する。実験は,WSJCAM0とPF_STARデータベースから,それぞれ成人と子供話者の狭帯域(8kHz)と広帯域(16kHz)音声を用い,成人の音声で訓練された音響モデルを用いて子供の音声を認識することにより行った。提案した方法は,狭帯域音声に対して,DNNおよびTDNN音響モデルに対して,それぞれ24%および11%の相対的改善を与えた。広帯域音声に対して,この技術はDNNとTDNN音響モデルに対して,それぞれ27%と13%の相対的改善を与えた。また,提案した方法の性能を,2つの話者適応法(声道長正規化(VTLN)と発話速度適応(SRA))と比較した。この比較は,提案した方法に対して最良の認識性能を示した。また,提案した方法をVTLNとSRAと組み合わせ,組合せ法がWERのさらなる低減を与えることを見出した。さらに,様々なタイプの付加雑音と信号対雑音比を用いて雑音の多い音声に対して行った実験を行い,提案手法が劣化音声に対しても良好に機能することを示した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る