文献
J-GLOBAL ID:202202282750525514   整理番号:22A0050073

AutoVCを用いたゼロショットリアルタイム声質変換手法の提案

A Study of Zero-Shot Real-Time Voice Conversion Method Using AutoVC
著者 (3件):
資料名:
巻: 2021  号: DPS-189  ページ: Vol.2021-DPS-189,No.5,1-6 (WEB ONLY)  発行年: 2021年12月13日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
声質変換とは,人物の声の声質のみを別人の声質に変換する技術である.その中でも,ゼロショット声質変換は,変換モデルの学習した音声にない声質間での変換が可能な手法である.AutoVCは,ゼロショット声質変換モデルで,入力話者の声のメルスペクトログラムと入出力話者の話者埋め込みベクトルを入力する事で,話者らの声を学習しているか否か関わらず,出力話者の声質のメルスペクトログラムを出力する.これを,音声波形に復元する際に,音既存手法ではWaveNetやGriffin-Limなどの多くの計算時間を要する手法を用いておりリアルタイムな声質変換の弊害となっている.そこで,本研究ではメルスペクトログラムに代えて,スペクトル包絡を用いた.そして,波形の復元はWORLDを用いる事でリアルタイムな声質変換を実現した.(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  人工知能 
引用文献 (14件):
  • Kaizhi Qian, Yang Zhang, Shiyu Chang, Xuesong Yang, Mark Hasegawa-Johnson: “AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss”, 入手先 <https://arxiv.org/abs/1905.05879> (2021.11.24).
  • Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu: ”WaveNet: A Generative Model for Raw Audio”, 入手先 <https://arxiv.org/abs/1609.03499> (2021.11.24).
  • DANIEL W. GRIFFIN, JAE S. LIM: “Signal estimation from modified short-time Fourier transform”, 入手先 <https://ieeexplore.ieee.org/document/1164317> (2021.11.24).
  • Ryan Prenger, Rafael Valle, Bryan Catanzaro: “Wave-Glow: A Flow-based Generative Network for Speech Synthesis”, 入手先 <https://arxiv.org/abs/1811.00002> (2021.11.24).
  • Masanori Morise, Fumiya Yokomori, Kenji Ozawa: ”WORLD: A Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications”, 入手先先 <https://doi.org/10.1587/transinf.2015EDP7457> (2021.11.24).
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る