話者独立視覚だけによる言語同定

NEWMAN Jacob L; COX Stephen J

文献

J-GLOBAL ID：201002243479852750 整理番号：10A0869353

話者独立視覚だけによる言語同定

SPEAKER INDEPENDENT VISUAL-ONLY LANGUAGE IDENTIFICATION

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=10A0869353&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=10A0869353&from=J-GLOBAL&jstjournalNo=E0316B") }}

著者 (2件)： ,
資料名：
巻： 2010 Vol.7 ページ： 5026-5029 発行年： 2010年
JST資料番号： E0316B ISSN： 1520-6149 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

自動言語同定は成熟した技術であり,数秒の発話だけから高い同定精度が達成できる水準に達している。本論文は,視覚だけによる言語同定(VLID)の実験を述べた。この実験では,唇の形状,見かけ,動きだけを使用して話し言葉発話の言語を決定する。話者依存モードVLIDについては,オーディオLIDで使用されるGMMトークン化に類似した方法でサブ音声単位を使用して,マルチリンガル話者の話す言語を同定できることを先に報告した。本論文は,これを英語とフランス語の二言語話者独立モード同定に拡張した。話者に共通な視覚単位としては,音素の視覚的見かけであり音素間の厳密な関係であるvisemeを使用した。実験の結果は,visemeの認識精度が34%と低くても,妥当なVLIDが可能であった。visemeの認識精度を劣化させるシミュレーションでは,認識誤りが50%程度でも高いVLID精度が達成できた。

, , , , , , , , , , , , , , , ,
, , , , ,

自然語処理 , パターン認識

, ,

前のページに戻る