文献
J-GLOBAL ID:202002288096577885   整理番号:20A2753683

End-to-End音声処理の概要とESPnet2を用いたその実践

Overview of end-to-end speech processing and its practice with ESPnet2.
著者 (1件):
資料名:
巻: 76  号: 12  ページ: 720-729  発行年: 2020年12月01日 
JST資料番号: G0162A  ISSN: 0369-4232  CODEN: NIOGAH  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
・深層学習の発展に伴い,音声処理の分野でもすべての処理をニューラルネットワークのみで完結させるエンドツーエンド(E2E)アプローチが有力な一選択肢。
・音声認識(ASR)の分野では大規模コーパスを利用したベンチマークにおいて,従来のニューラルネットワークと隠れマルコフモデル(HMM)のハイブリッドシステム(DNN-HMM)を上回る報告有。
・テキスト音声合成(TTS)の分野でも,Wavenetに代表されるニューラルボコーダを活用して,人間の発話と同等の品質の読み上げ音声の生成が実現。
・さらに,計算機能力の向上やモデルの改良によりスマートフォンなどの小型デバイスでのE2E音声処理モデルの利用が実用化。
・E2E手法の利点は系列から系列への変換問題として様々なタスクを統一的な枠組みで扱え,システム全体を同時に最適化でき,共通な目的関数によりシステム全体を最適化できるので直接最終的な性能の底上げが可能。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  人工知能 
引用文献 (72件):
  • [1] S. Karita, N. Chen, T. Hayashi, T. Hori, H. Inaguma, Z. Jiang, M. Someki, N. E. Y. Soplin, R. Yamamoto, X. Wang, S. Watanabe, T. Yoshimura and W. Zhang, “A comparative study on Transformer vs RNN in speech applications,” Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) 2019, pp.449-456 (2019).
  • [2] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior and K. Kavukcuoglu, “WaveNet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499 (2016).
  • [3] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. J. Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis and Y. Wu, “Natural TTS synthesis by conditioning WaveNet on Mel spectrogram predictions,” Proc. IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP) 2018, pp.4779-4783.
  • [4] N. Li, S. Liu, Y. Liu, S. Zhao, M. Liu and M. Zhou, “Close to human quality TTS with Transformer,” arXiv preprint arXiv:1809.08895 (2018).
  • [5] “An all-neural on-device speech recognizer - Google AI Blog,” https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html (Accessed: 2020-08-01).
もっと見る
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る