音声データの隠れ属性を利用した異種音響モデル群の構築

福田隆; 立花隆輝; 西村雅史; CHAUDHARI Upendra; RAMABHADRAN Bhuvana; ZHAN Puming

文献

J-GLOBAL ID：201302258655646720 整理番号：13A0070768

音声データの隠れ属性を利用した異種音響モデル群の構築

Constructing Ensembles of Dissimilar Acoustic Models Using Hidden Attributes of Large Speech Corpus

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=13A0070768&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=13A0070768&from=J-GLOBAL&jstjournalNo=Z0031C") }}

著者 (6件)： , , , , ,
資料名：
巻： 2012 号： 4 ページ： ROMBUNNO.SLP-93,NO.3 発行年： 2012年12月15日
JST資料番号： Z0031C ISSN： 2186-2583 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

音声の多様な変化を高精度にモデル化する方法は,音声認識の分野で長らく重要課題の一つに位置づけられてきた。近年では,大規模コーパスの整備に伴い,音響的に類似したサブセットを用いて個々にユニークな特性を持つ音響モデル集合を作成し,システム統合を介してさならる高精度化を図る手法が増えている。本報告では,SNRや話速といった音声に内在する隠れ属性を利用して学習データを分割し,システム統合法のための効果的な音響モデル集合を構築する方法を提案する。提案法では,各発話を事後確率に基づく単一ベクトルで表現した後,コサイン類似度に由来する目的関数を用いて音声データクラスタの独立性を評価する。その後,生成されたデータクラスタ毎に音響モデルを構築し,n-best ROVERによるシステム統合を行う。提案手法は音声検索タスクに特化した大語彙連続音声認識で,単一モデルの音声認識システムと比較して相対的に4%の性能改善を達成した。(著者抄録)

, , , , , , , , , ,
, , , ,

情報加工一般 , 音響信号処理 , パターン認識

, , ,

前のページに戻る