スライド情報を用いた言語モデル適応による講義音声認識

河原達也; 根本雄介; 勝丸徳浩; 秋田祐哉

文献

J-GLOBAL ID：200902232824278296 整理番号：09A0203738

スライド情報を用いた言語モデル適応による講義音声認識

Automatic Lecture Transcription by Exploiting Slide Information for Language Model Adaptation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=09A0203738&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=09A0203738&from=J-GLOBAL&jstjournalNo=Z0778B") }}

著者 (4件)： , , ,
資料名：
巻： 50 号： 2 ページ： 469-476 発行年： 2009年02月15日
JST資料番号： Z0778B ISSN： 1882-7837 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

大学などの講義で使用されるスライドの情報を用いて,言語モデルを動的に適応することにより,音声認識の高精度化を実現する方法を提案する。まず,当該講義のスライド全体のテキストを用いて,PLSA(Probabilistic Latent Semantic Analysis)によりN-gramモデルの話題への適応を行う。次に,発話に対応する個々のスライドの情報を用いて,キャッシュモデルによりスライドに現れる単語の確率を強化し,認識結果のリスコアリングを行う。京都大学で行われた技術講習会と正規の講義を対象とした音声認識において評価を行った結果,PLSAによる大域的な適応とキャッシュモデルによる局所的な適応を組み合わせることにより,認識精度の有意な改善が得られた。特に,キーワードの検出で大きな改善が得られ,大学の講義でも80%に近い精度(F値)を実現した。(著者抄録)

, , , , , , , , , ,
, ,

パターン認識 , 情報加工一般

引用文献 (18件)：

岡本拓明, 仲野亘, 小林隆志, 直井聡, 横田治夫, 岩野公司, 古井貞煕: 音声情報を統合したプレゼンテーションコンテンツ検索, 信学論, Vol. J90-D, No.2, pp. 209-222(2007).
北出祐, 河原達也: 講義の自動アーカイブ化のためのスライドと発話の対応付け, 情報処理学会研究報告, 2005-SLP-55-11(2005).
富樫慎吾, 山口優, 北岡教英, 中川聖一: 講義音声の認識・要約・インデックス化の検討, 情報処理学会研究報告, 2006-SLP-62-11(2006).
Glass, J., Hazen, T. J., Hetherington, L. and Wang, C.: Analysis and Processing of Lecture Audio Data: Preliminary Investigations, Proc. HLT-NAACL (2004).
吉川あゆみ, 太田晴康, 広田典子, 白澤麻弓: 大学ノートテイク入門, 人間社 (2001).

, , , ,

前のページに戻る