オーディオビジュアルキューを用いた音声活動検出と話者定位

BLAUTH Dante A.; MINOTTO Vicente P.; JUNG Claudio R.; LEE Bowon; KALKER Ton

文献

J-GLOBAL ID：201202240902077128 整理番号：12A0139039

オーディオビジュアルキューを用いた音声活動検出と話者定位

Voice activity detection and speaker localization using audiovisual cues

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=12A0139039&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=12A0139039&from=J-GLOBAL&jstjournalNo=H0913A") }}

著者 (5件)： , , , ,
資料名：
巻： 33 号： 4 ページ： 373-380 発行年： 2012年03月
JST資料番号： H0913A ISSN： 0167-8655 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

本稿では,発話状況から沈黙を定義し,そして発話状況の場合にアクティブな話者を定位するためのマルチモーダル方式を提案する。筆者らの方式では,ビデオカメラを用いて,参加者の顔を追跡し,マイクロフォンアレイを用いて,位相変換で操作した応答パワー(SRO-PHAT)法で音源位置(SSL)を推定する。オーディオビジュアルキューを組合わせ,そして2つの競合する隠れMarkovモデル(HMM)を用いて,沈黙あるいは話者が存在することを検出する。発話を検出すると,対応したHMMにより,話者の時空間コヒーレントな定位も行る。実験結果により,HMMを組込むことにより,単一モーダルSRP-PHATよりも向上した効果を獲得し,そしてビデオキューを用いて,更により向上させることを示す。Copyright 2012 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.

, , , , , , , , ,
, , , ,

パターン認識

, , , , ,

前のページに戻る