文献
J-GLOBAL ID:201802263955515701   整理番号:18A1252938

音響ランドマークは深い神経回路網音響モデルによる自動音声認識のための他のフレームよりも電話ストリングについてより多くの情報を含む【JST・京大機械翻訳】

Acoustic landmarks contain more information about the phone string than other frames for automatic speech recognition with deep neural network acoustic model
著者 (5件):
資料名:
巻: 143  号:ページ: 3207-3219  発行年: 2018年 
JST資料番号: C0249A  ISSN: 0001-4966  CODEN: JASMAN  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ほとんどの主流自動音声認識(ASR)システムは,すべての特徴フレームが等しく重要であると考えている。しかし,音響ランドマーク理論は,いくつかのフレームが他よりも重要であるという矛盾するアイデアに基づいている。音響ランドマーク理論は,音声スペクトルが急激に変化するか,または極値に達するランドマーク時間を定義するために,調音音響および音響知覚関係における量子非線形性を利用する。フレーム重なりランドマークは音声認識に十分であることが実証されている。本研究では,Gauss混合モデル(GMM)と深いニューラルネットワーク(DNN)に基づくASRシステムの両方を用いて,TIMITコーパス上で実験を行い,ランドマークを含むフレームが他のものよりASRに対してより有益であることを見出した。再重み付け音響尤度によるランドマーク上の強調レベルの変化は,電話誤り率(PER)を低減する傾向があることを発見した。さらに,ランドマークを発見的に活用することによって,ハイブリッドDNNフレームドロップ戦略の1つは,フレームの半分以下(45.8%)を評価するとき,最適の0.44%以内のPERを維持した。このハイブリッド戦略は他の非発見的な方法より優れており,計算を低減するためのランドマークの可能性を実証した。Copyright 2018 AIP Publishing LLC All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  聴覚・音声モデル 

前のページに戻る