スペクトログラムインペインティングを用いた音声における誤発音の修正【JST・京大機械翻訳】

Ben-Simon Talia; Kreuk Felix; Awwad Faten; Cohen Jacob T.; Keshet Joseph

プレプリント

J-GLOBAL ID：202202213836494758 整理番号：22P0327801

スペクトログラムインペインティングを用いた音声における誤発音の修正【JST・京大機械翻訳】

Correcting Mispronunciations in Speech using Spectrogram Inpainting

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年04月07日プレプリントサーバーでの情報更新日： 2022年06月30日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

新しい言語の学習は,環境からの参照生産と音声生産を常に比較する。音声取得の初期に,子供は,彼らの介護者の音声をマッチさせるための構音的調整を行う。言語のGrownup学習者は,チューター参照にマッチする音声を弱める。本論文では,不正確な生産を与える正しい発音フィードバックを総合的に生成する方法を提案した。さらに,著者らの目的は,話者の元の音声を維持しながら補正生産を生成することである。システムは,ユーザを語句に発音する。音声を記録し,不正確な音素に関連するサンプルをゼロでマスクした。この波形は,Uネットアーキテクチャによる深層学習修復システムとして実装され,再構成された音声を出力するために訓練された,音声発生器への入力として機能する。訓練セットは,不対な適切な音声例で構成され,発電機は元の適切な音声を再構成するために訓練される。英語の最少対単語の音素置換と発音障害の子供に対するシステムの性能を評価した。結果は,人間の聴取者が,異なる話者の生産で不正確な音素の平滑化された置換で,著者らの生成された音声をわずかに選好することを示唆する。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

CAI , 音声処理 , パターン認識

前のページに戻る