文献
J-GLOBAL ID:202202291247494410   整理番号:22A0900865

マルチスピーカWaveNetボコーダによるニューラル音声レート変換【JST・京大機械翻訳】

Neural speech-rate conversion with multispeaker WaveNet vocoder
著者 (7件):
資料名:
巻: 138  ページ: 1-12  発行年: 2022年 
JST資料番号: W1590A  ISSN: 0167-6393  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
音のピッチを保存しながら,音声波形を拡大または圧縮できる音声レート変換技術は,信号処理に基づくアプローチによって伝統的に実現される。合成品質を改善するために,本論文では,ニューラル音声レート変換を行うため,ニューラルボコーダを用いた機械学習ベースアプローチを提案した。提案アプローチは,マルチ話者コーパスで訓練されたマルチ話者WaveNet Vocコーダを導入した。訓練データには含まれていない,多くのおよび非特定話者に対する音声速度変換を,推論における時間方向に沿った音響特徴または隠れ特徴の再サンプリングにより実現した。実験では,JVSコーパスを用いてマルチ話者WaveNet vocoderを訓練し,2種類の再サンプリング法を比較した。従来のWSOLAとSTRAIGHTも信号処理ベースベースラインとして比較した。テストセットは,モノリンガル条件のための日本語話者コーパスと,交差言語条件のための英語マルチ話者コーパス(CMU ARCTIC)を含んだ。実験の結果は,隠れ特徴の再サンプリングによる提案アプローチが,高速音声の変換における低基本周波数の話者を除いて,モノリンガルとクロスリンクの両条件で,従来手法よりも高品質音声レート変換を達成できることを示した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  情報加工一般  ,  パターン認識 

前のページに戻る