マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション

奥貴裕; 佐藤庄衛; 小林彰夫; 本間真一; 今井亨

文献

J-GLOBAL ID：201202256943152898 整理番号：12A1245751

マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=12A1245751&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=12A1245751&from=J-GLOBAL&jstjournalNo=S0757C") }}

著者 (5件)： , , , ,
資料名：
巻： J95-D 号： 9 ページ： 1749-1758 発行年： 2012年09月01日
JST資料番号： S0757C ISSN： 1880-4535 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本論文では,対談音声認識のための,音素情報を利用したベイズ情報量基準に基づくオンライン話者ダイアライゼーション手法について述べる。従来のオンライン話者ダイアライゼーションは,対談音声から切り出される一つの音声区間内に多く発生する話者交替点を想定していないものや,話者判定結果をリアルタイム音声認識の話者適応に利用するには,話者判定の遅れ時間が大きく不向きなものが多い。提案手法では,ベイズ情報量基準により,複数話者が連続して発話する音声区間内の話者交替点を逐次検出しながら,オンライン性を考慮した判定手法で話者ダイアライゼーションを行う。また,音素認識から得られる音素情報に基づいて特徴量を分類した,「マルチ音素クラス」モデルを用いることで,特に短い遅れ時間での話者ダイアライゼーション精度の向上を図る。報道系情報番組の対談部分を対象とした話者ダイアライゼーション実験を行った結果,遅れ時間2秒の話者判定において,提案手法により,従来の単一音素クラスの全音素モデルに比べて話者ダイアライゼーション誤りが20.0%削減することを確認した。話者判定結果を利用した音声認識のオンライン話者適応実験では,話者交替点前後の発話に関して7.8%の単語誤り削減率を得た。(著者抄録)

, , , , ,
, ,

パターン認識

引用文献 (19件)：

Z. Zhang, S. Furui, and K. Ohtsuki, “On-line incremental speaker adaptation for broadcast news transcription,” Speech Commun., vol.37, no.3, pp. 271-281, July 2002.
本間真一, 小林彰夫, 奥貴裕, 佐藤庄衛, 今井亨, 都木徹, “ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイム字幕制作システム,” 映情学誌, vol.63, no3, pp. 331-338, 2009.
小林彰夫, 奥貴裕, 本間真一, 佐藤庄衛, 今井亨, “コンテンツ活用のための報道番組自動書き起こしシステム,” 信学論 (D), vol. J93-D, no.10, pp. 2085-2095, Oct.2010.
Y. Moh, P. Nguyen, and J.-C. Junquam, “Towards domain independent speaker clustering,” Proc. IEEE ICASSP, pp. 85-88, 2003.
D. A. Reynolds and P. Torres-Carrasquillo, “The MIT Lincoln laboratory RT-04F diarization systems: applications to broadcast audio and telephone conversations,” Proc. Fall 2004 Rich Transcription Workshop (RT-04), 2004.

, , , , , ,

前のページに戻る