本論文ではパラレルデータを必要としない一対一の日本語歌声変換手法を提案する.提案手法はCycleGANに基づくスペクトログラム変換において,音声認識モデルを用いた歌唱音素列における知覚的損失を導入することにより,歌唱者変換後の歌声の品質を改善する.モード崩壊を抑制するAdaptive Multi Adversarial Trainingを用いることに加え,敵対的訓練の切り替えを識別器の精度を元に制御することで,少数の日本語歌声データを用いて歌唱者の変換を行うことができることを報告する.(著者抄録)
“Dynamic Time Warping”, pp. 69-84, Springer Berlin Heidelberg, Berlin, Heidelberg (2007).
J.-Y. Zhu, T. Park, P. Isola and A. A. Efros: “Unpaired image-to-image translation using cycle-consistent adversarial networks”, Proceedings of the IEEE international conference on computer vision, pp. 2223-2232 (2017).
A. Kanagaki, M. Tanaka, T. Nose, R. Shimizu, A. Ito and A. Ito:“Cyclegan-based high-quality non-parallel voice conversion with spectrogram and wavernn”, 2020 IEEE 9th Global Conference on Consumer Electronics (GCCE)IEEE, pp. 356-357 (2020).
M. Morise, F. Yokomori and K. Ozawa: “World: a vocoder-based high-quality speech synthesis system for real-time applications”, IEICE TRANSACTIONS on Information and Systems, 99, 7, pp. 1877-1884 (2016).
T. Kaneko and H. Kameoka: “Parallel-data-free voice conversion using cycle-consistent adversarial networks”, arXiv preprint arXiv:1711.11293 (2017).