文献
J-GLOBAL ID:202302242589909742   整理番号:23A0883773

歌唱音素列の知覚的損失を考慮したCycleGANによるノンパラレルデータ日本語歌い手変換

著者 (3件):
資料名:
巻: 122  号: 404(PRMU2022 58-127)  ページ: 293-298 (WEB ONLY)  発行年: 2023年02月23日 
JST資料番号: U2030A  ISSN: 2432-6380  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文ではパラレルデータを必要としない一対一の日本語歌声変換手法を提案する.提案手法はCycleGANに基づくスペクトログラム変換において,音声認識モデルを用いた歌唱音素列における知覚的損失を導入することにより,歌唱者変換後の歌声の品質を改善する.モード崩壊を抑制するAdaptive Multi Adversarial Trainingを用いることに加え,敵対的訓練の切り替えを識別器の精度を元に制御することで,少数の日本語歌声データを用いて歌唱者の変換を行うことができることを報告する.(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
音声処理 
引用文献 (20件):
  • “Dynamic Time Warping”, pp. 69-84, Springer Berlin Heidelberg, Berlin, Heidelberg (2007).
  • J.-Y. Zhu, T. Park, P. Isola and A. A. Efros: “Unpaired image-to-image translation using cycle-consistent adversarial networks”, Proceedings of the IEEE international conference on computer vision, pp. 2223-2232 (2017).
  • A. Kanagaki, M. Tanaka, T. Nose, R. Shimizu, A. Ito and A. Ito:“Cyclegan-based high-quality non-parallel voice conversion with spectrogram and wavernn”, 2020 IEEE 9th Global Conference on Consumer Electronics (GCCE)IEEE, pp. 356-357 (2020).
  • M. Morise, F. Yokomori and K. Ozawa: “World: a vocoder-based high-quality speech synthesis system for real-time applications”, IEICE TRANSACTIONS on Information and Systems, 99, 7, pp. 1877-1884 (2016).
  • T. Kaneko and H. Kameoka: “Parallel-data-free voice conversion using cycle-consistent adversarial networks”, arXiv preprint arXiv:1711.11293 (2017).
もっと見る

前のページに戻る