文献
J-GLOBAL ID:201802253712965123   整理番号:18A0661092

CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識

著者 (4件):
資料名:
巻: 2018  号: MUS-118  ページ: Vol.2018-MUS-118,No.16,1-6 (WEB ONLY)  発行年: 2018年02月13日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
End-to-End音声認識が従来のDNN-HMMハイブリッド音声認識よりも高速で簡潔であることから注目されている。特に入力の音響特徴量から出力の単語列に直接変換する単語単位End-to-End音声認識は外部の言語モデルが必要なく,更なる簡潔性が期待される。しかし,出現頻度の低い単語に関する学習データのスパース性が問題となる。そこで本稿では文字を出力単位としたモデルを併用する単語単位モデルを提案する。文字単位モデルを併せて学習することで単語単位モデルのオーバーフィットを軽減することが期待できる。また,単語単位モデルが未知語を出力した際に文字単位モデルで対応する文字列を参照することで未知語の推定を行う。提案手法を「日本語話し言葉コーパス」(CSJ)で評価を行なった結果,従来のハイブリッド音声認識よりも非常に速い処理時間で同等以上の認識精度を実現し,さらに種々の改善手法により高い性能が得られた。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  音声処理  ,  人工知能 
引用文献 (26件):
  • George Saon, Gakuto Kurata, Tom Sercu, Kartik Audhkhasi, Samuel Thomas, Dimitrios Dimitriadis, Xiaodong Cui, Bhuvana Ramabhadran, Michael Picheny, Lynn-li Lim, Bergul Roomi, and Phil Hall,“English Conversational Telephone Speech Recognition by Humans and Machines,” in Interspeech 2017, 2017.
  • Alex Graves, Santiago Fernandez, Faustino Gomez, and Jurgen Schmidhuber,“Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks,”in Proceedings of the 23rd international conference on Machine Learning, pp. 369-376, 2006.
  • Alex Graves and Navdeep Jaitly, “Towards end-to-end speech recognition with recurrent neural networks,” in Proceedings of the 31st International Conference on Machine Learning, pp. 1764-1772, 2014.
  • Ha?im Sak, Andrew Senior, Kanishka Rao, and Franc?oise Beaufays,“Fast and accurate recurrent neural network acoustic models for speech recognition,” arXiv preprint arXiv:1507.06947, 2015.
  • Ha?im Sak, F?lix de Chaumont Quitry, Tara Sainath, Kanishka Rao, “Acoustic modelling with CD-CTCSMBR LSTM RNNs,”in Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, pp. 604-609, 2015.
もっと見る

前のページに戻る