抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
現在の音声認識を用いたインターフェースの問題の1つに,ボタンなどのグラフィカルインターフェースに比べて入力に対する反応速度が遅くなりがちで,フィードバックも少ないことが挙げられる。これまでに,部分文仮説の尤度等を利用して発話区間の終端(無声区間の出現)を早く検出する手法や,仮説を部分的に確定していくことで逐次的に結果を出力する仮説早期確定手法などが研究されてきた。本研究では,単語認識を対象として,仮説ネットワーク(木構造化辞書)の構造および認識処理中のフレームごとの状態尤度より,入力の途中で仮説を事前確定する手法を提案する。具体的には,木構造化辞書において単語間で共有されておらず,単語末端までのパスが一意に確定できるノードをあらかじめ抽出しておき,認識時にはそれらの単語中のノードの尤度から,末端に至っていない単語についても信頼度を算出する。音声区間終了判定は,ある単語の信頼度の閾値,およびその単語が持続して最尤となる持続フレーム数で行う。評価実験では,メディアプレイヤー操作タスクを想定して,語彙数38の単語辞書について6名の話者が発声228単語発話(平均発話長1.12秒)に対して実験を行った。その結果,提案法は,認識精度を保ったまま,切り出し末尾の無音区間を取り除いた真の発話終端よりもさらに平均で0.3秒遡って仮説を確定できることが示された。(著者抄録)