文献
J-GLOBAL ID:200902221500719190   整理番号:08A0836002

音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別

Speaker diarization for meetings by integrating speech presence probability estimation and time-frequency domain direction of arrival estimation
著者 (6件):
資料名:
巻: 108  号: 143(EA2008 37-44)  ページ: 19-24  発行年: 2008年07月11日 
JST資料番号: S0532B  ISSN: 0913-5685  資料種別: 会議録 (C)
記事区分: 短報  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
我々は,会議状況において「いつ誰が話したか」を推定する方法を検討している。これは,音声区間検出器(VAD)で推定した音声存在確率と,音声区間における音声到来方向(DOA)の分類結果とを用いて,会議音声中の各話者の音声区間を推定するものである。これを本稿では話者識別と呼ぶ。本稿では,この性能向上を目的とし,2つの方法を提案する。提案1として,DOAを各時間周波数スロットで推定することで,特に複数人同時発話時の話者識別精度を向上させる。提案2として,VAD結果およびDOA情報を確率的に統合する方法を検討する。両提案法により,実際の会話音声データに対して,話者識別性能の向上が見られたので報告する。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
引用文献 (17件):
  • ANGUERA, X. Acoustic beamforming for speaker diarization of meetings. IEEE Trans. Audio, Speech and Language Processing. 2007, 15, 2011-2022
  • MACHO, D. Automatic speech activity detection, source localization, and speech recognition on the CHIL seminar corpus. Proc. of ICME'05, July. 2005, 876-879
  • http://www.nist.gov/speech/tests/rt/
  • ELLIS, D. Speaker turn segmentation based on between-channel differences. Proc. of NIST Meeting Recognition Workshop, 2004. 2004, 112-117
  • BUSSO, C. Real-time monitoring of participants' interaction in a meeting using audio-visual sensors. Proc. of ICASSP'07. 2007, II, 685-688
もっと見る

前のページに戻る