抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本研究ではストリーミング音声認識におけるRecurrent neural network-transducer(RNN-T)とAttention-based decoder(AD)を組み合わせたHybrid RNN-T/Attentionモデルの改善手法について述べる.一般にADは注意重みの計算に始端から終端までの入力音声情報が必要なためストリーミング動作が困難であった.そこで我々は先行研究として始端から各triggerの位置までの音響特徴量を用いて注意重みを計算するTriggered attention-based decoder(TAD)と組み合わせることでストリーミング動作可能なHybrid RNN-T/Attentionモデルを提案した.しかしながら従来のTADではストリーミング処理を可能としたが,計算量やメモリ消費量に課題があった.本研究では認識精度を保ちながら計算コストが削減可能なTriggered chunkwise attention-based decoder(TCAD)を用いたHybrid RNN-T/Attentionモデルを提案する.また,本研究ではさらなる認識精度の改善に向けてHybrid RNN-T/Attentionモデルが持つ2種類の内部言語モデルを用いた言語モデルの統合方法についても検討を行なう.(著者抄録)