プレプリント
J-GLOBAL ID:202202207444213920   整理番号:22P0177701

Expressive End-to-End音声合成のための深文文脈の利用【JST・京大機械翻訳】

Exploiting Deep Sentential Context for Expressive End-to-End Speech Synthesis
著者 (5件):
資料名:
発行年: 2020年08月02日  プレプリントサーバーでの情報更新日: 2020年08月02日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
注意ベースseq2seqテキスト対音声システム,特に自己注意ネットワーク(SAN)は最先端の性能を達成した。しかし,豊富な韻律を有する表現コーパスは,1)韻律的側面,すなわち,異なる送付性粒状性にわたってスパンし,主に音響表現性を決定するので,まだ,表現とラベルを量子化するのが困難であり,2)現在のseq2seqフレームワークは,テキスト符号器からのみ韻律情報を抽出するのが困難であり,表現内容のために平均表現に簡単に崩壊する。本論文では,seq2seqベースTTSのための表現コーパス上の送付コンテキストを十分に利用するために,SANベーステキスト符号器上に構築されるコンテキスト抽出器を提案する。コンテキスト抽出器は,まず異なるSAN層から韻律関連送信コンテキスト情報を収集し,次にそれらを集約的文章表現を学習して,最終生成音声の表現性を強化した。特に,コンテキスト集約の2つの方法を検討した。1)異なるSAN層の出力を直接的に連結する直接凝集,2)異なるSAN層に対する寄与を自動的に学習するためのマルチヘッド注意を用いる重み付け集約。2つの表現コーパスに関する実験は,著者らのアプローチがはるかに豊富な韻律変化によってより多くの自然音声を作り出すことができて,加重凝集がモデリング表現性においてより優れることを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
音声処理 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る