DNNの出力確率を用いたSTDのリスコアリング方式

紺野良太; LEE Shi-Wook; 田中和世; 小嶋和徳; 石亀昌明; 伊藤慶明

文献

J-GLOBAL ID：201502219532669708 整理番号：15A0367908

DNNの出力確率を用いたSTDのリスコアリング方式

A rescoring method for STD using output probability of DNN

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=15A0367908&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=15A0367908&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (6件)： , , , , ,
資料名：
巻： 2014 号： SLP-102 ページ： VOL.2014-SLP-102,NO.7 (WEB ONLY) 発行年： 2014年07月17日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,ビデオデータから特定のシーンを検索する機能に対するニーズが高まっており,音声中の検索語検出(STD:Spoken Term Detection)の研究が盛んに行われている。本稿では,従来のSTDを行った後,検索結果上位候補をDNN(Deep Neural Network)の出力確率を用いて検索語と照合するリスコアリング方式を提案する。NTCIR-9,10のFormal run,Dry run計4種のテストセットを用いた評価実験の結果,リランキング発話数Kを50件とした場合,検索精度を表すMAPが4.11pt~11.61pt向上し,処理時間はフレーム単位照合で約0.17秒,状態単位照合で平均約0.10秒と,実用可能な処理時間で検索精度の向上を実現できた。さらに,リランキング対象発話数の増加に伴い,検索精度が向上することも確認できた。Kを2000件とした場合のMAPは9.48pt~28.04pt向上し,検索時間はフレーム単位照合で約7.24秒,状態単位照合で約4.12秒となった。また,状態単位照合方式は,フレーム単位照合とほぼ同等の検索精度で検索時間を約1.73倍高速化できた。以上のように,実用的な処理時間で検索精度向上を実現し本手法の有効性を確認できた。(著者抄録)

, , , , , , , ,
, , , ,

人工知能 , ニューロコンピュータ , 音声処理 , パターン認識

引用文献 (15件)：

Tomoyosi Akiba, Hiromitsu Nishizaki, Kiyoaki Aikawa, Tatsuya Kawahara, Tomoko Matsui, Overview of the IR for Spoken Documents Task in NTCIR-9 Workshop, Proceedings of NTCIR-9 Workshop Meeting, pp. 223-235 (2011).
Tomoyosi Akiba, Hiromitsu Nishizaki, Kiyoaki Aikawa, Xinhui Hu, Yoshiaki Itoh, Tatsuya Kawahara, Seiichi Nakagawa, Hiroaki Nanjo, Yoichi Yamashita, Overview of the NTCIR-10 SpokenDoc-2 Task, Proceedings of the 10th NTCIR Conference, pp. 573-587 (2013).
National Institute of Informatics, NTCIR-11, http://research.nii.ac.jp/ntcir/ntcir-11/index.html
Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath, Brian Kingsbury, Deep Neural Networks for Acoustic Modeling in Speech Recognition, IEEE Signal Processing Magazine, Vol. 29, No. 6, pp.82-97 (2012).
三村正人,河原達也,CSJを用いた日本語講演音声認識へのDNN-HMMの適用と話者適応の検討,情報処理学会研究報告,Vol.2013-SLP-97,No.9,pp.1-6(2013).

前のページに戻る