文献
J-GLOBAL ID:201302201167851126   整理番号:13A0012164

非音声区間拡張マルチコンディション単語モデルの雑音ロバスト性に関する実験的評価

Experimental Evaluation of Noise Robustness for Extended Whole-Word Model with Multi-Condition Training
著者 (2件):
資料名:
巻: 132  号: 10  ページ: 1667-1674 (J-STAGE)  発行年: 2012年 
JST資料番号: S0810A  ISSN: 0385-4221  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
機器の高機能化が操作の複雑化をもたらし,デジタルデバイド問題が顕在化しつつある。その解決策として,音声インタフェースに期待が寄せられている。音声インタフェースは,直感的かつ習得までに時間を要さない点で優れているが,それを搭載した製品は少ない。その理由は,現在の音声認識処理方式は,フレーム同期で行い記述文法や言語モデルを使用するものが多いが,大きい処理速度とメモリを必要とするため,高性能プロセッサを必要とするためである。これに対し,著者らは,これまでに,高認識率,小型,低消費電力を追求した単語認識専用ハードウェアを構築している。このシステムでは記述文法や言語モデルを使用せず一括処理の認識処理方式を採用している。記述文法などを使用しないため,単純なシステム構成となり,一括処理により記憶メモリも大幅に削減できる。他方,音声認識を行う際,音声区間の検出精度は認識性能に大きな影響を与える。そのため,自動音声区間検出(VAD)に関する研究が活発に行われているが,確立された手法はない。特に,語頭や語尾の検出精度が不十分であるため,実際に検出された区間を拡張し,無音モデル(非音声区間から生成されるモデル)を追加することで解決を図っている。しかし,無音モデルを用いるには記述文法を使用する必要があり,筆者らが提案しているシステムには不向きである。そこで,本論文では,記述文法を用いない認識処理方式において,VADの精度が不十分であっても高い認識性能を実現する方法を検討した。これは,マルチコンディション学習(MC学習)を導入した非音声区間拡張単語モデルによる非音声区間延長誤りに頑健な音響モデルである。耐雑音性を実験的に検証した結果,非音声区間拡張モデルとMC学習により,高い認識性能を維持できることを確認した。さらに,認識実験を実施し,正解検出された音声に対しては1%以下の劣化に抑えることができ概ね良好な結果が得られた。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
引用文献 (12件):

前のページに戻る