抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本稿では Deep Neural Network(DNN)を用いた日本語音声認識に関する検討結果を述べる。DNNとは多数の階層を持った人工ニューラルネットワークモデルである。近年,多層のネットワークでも効率的に最適化できる手法が発表され,各種の認識タスクで従来法を上回る性能を示したことから,再び大きな注目を集めている。音声認識分野においてもDNNに基づく音響モデルに関して既に多数の研究が行われ改善が進む一方で,日本語のテストデータを用いた検討結果は限られた学習データを用いた小規模な実験に限られていた。本稿では日本語話し言葉コーパス(CSJ)をテストセットとしDNNに基づく音響モデルに関する各種の評価を行った結果について述べる。特に270時間の学習データを用いた評価において,音素誤り最小化(MPE)学習されたGaussian Mixture Modelに基づく音響モデルと比較して最大28.2%の認識誤りが削減され,DNNの認識性能の高さを日本語においても確認した。またDNNに基づく音響モデルにおいて,学習用の言語リソースが限られた状況でデータを擬似的に増加させる手法について新たに検討を行い,認識精度がさらに向上することを確認した。(著者抄録)