誘導注意を持つ深層畳込みネットワークに基づく効率的に訓練可能なテキスト対音声システム【JST・京大機械翻訳】

Tachibana Hideyuki; Uenoyama Katsuya; Aihara Shunsuke

プレプリント

J-GLOBAL ID：202202201333729997 整理番号：22P0042634

誘導注意を持つ深層畳込みネットワークに基づく効率的に訓練可能なテキスト対音声システム【JST・京大機械翻訳】

Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2017年10月24日プレプリントサーバーでの情報更新日： 2020年09月30日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

本論文では,任意のリカレントユニットを使用せずに,深い畳み込みニューラルネットワーク(CNN)に基づく新しいテキスト対音声(TTS)技術について述べた。リカレントニューラルネットワーク(RNN)は,最近,逐次データをモデル化するための標準技術となり,この技術はいくつかの切削エッジニューラルTTS技術に使用されている。しかしながら,訓練RNNコンポーネントは,しばしば,非常に強力なコンピュータ,または,非常に長い時間,典型的には数日または数を必要とする。一方,最近の他の研究は,CNNベースの配列合成が,高い並列性のために,RNNベースの技術よりはるかに高速であることを示した。本論文の目的は,CNNだけに基づく代替ニューラルTTSが,訓練のこれらの経済的コストを軽減することを示すことである。実験では,2つのGPUを備えた通常のゲームPCを用いて,提案した深畳込みTTSを一晩(15時間)に十分に訓練し,一方,合成音声の品質は,ほぼ許容できるものであった。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 自然語処理

, , , , ,

前のページに戻る