抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,対談音声認識のための,音素情報を利用したベイズ情報量基準に基づくオンライン話者ダイアライゼーション手法について述べる。従来のオンライン話者ダイアライゼーションは,対談音声から切り出される一つの音声区間内に多く発生する話者交替点を想定していないものや,話者判定結果をリアルタイム音声認識の話者適応に利用するには,話者判定の遅れ時間が大きく不向きなものが多い。提案手法では,ベイズ情報量基準により,複数話者が連続して発話する音声区間内の話者交替点を逐次検出しながら,オンライン性を考慮した判定手法で話者ダイアライゼーションを行う。また,音素認識から得られる音素情報に基づいて特徴量を分類した,「マルチ音素クラス」モデルを用いることで,特に短い遅れ時間での話者ダイアライゼーション精度の向上を図る。報道系情報番組の対談部分を対象とした話者ダイアライゼーション実験を行った結果,遅れ時間2秒の話者判定において,提案手法により,従来の単一音素クラスの全音素モデルに比べて話者ダイアライゼーション誤りが20.0%削減することを確認した。話者判定結果を利用した音声認識のオンライン話者適応実験では,話者交替点前後の発話に関して7.8%の単語誤り削減率を得た。(著者抄録)