コンテンツ活用のための報道番組自動書き起こしシステム

小林彰夫; 奥貴裕; 本間真一; 佐藤庄衛; 今井亨

文献

J-GLOBAL ID：201002264176700459 整理番号：10A1025966

コンテンツ活用のための報道番組自動書き起こしシステム

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=10A1025966&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=10A1025966&from=J-GLOBAL&jstjournalNo=S0757C") }}

著者 (5件)： , , , ,
資料名：
巻： J93-D 号： 10 ページ： 2085-2095 発行年： 2010年10月01日
JST資料番号： S0757C ISSN： 1880-4535 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本論文では,放送コンテンツ活用のための報道番組自動書き起こしシステムについて述べる。本システムは,放送局の番組制作者による報道番組の内容の閲覧・検索をはじめ,音声認識の学習データ収集や番組のメタデータ制作を目的として,番組の音声を随時認識して,映像・音声とともに認識結果を蓄積するものである。本システムでは,発話区間の検出を行いながらリアルタイムで音声認識結果を蓄積し,これと並行して話者識別により発話に話者名を付与する。最新の報道番組に出現する単語に対応するため,音声認識の統計的言語モデルは,ウェブ上のニューステキストを取得して随時更新される。また,認識結果として得られたラティスから索引を生成して,キーワード検索を可能としている。蓄積された報道番組の閲覧・検索の性能を確認するために,本システムの評価を行ったところ,原稿の読み上げを含む報道番組の単語誤り率は9.2%,キーワード検索のF値は約95%であった。一方,システムから得られた音声認識結果を修正せずに用いて言語モデルを適応化し,スポーツ等のニュース番組を評価したところ,単語誤り削減率は最大5.7%となり,学習データ収集の効果が確認された。(著者抄録)

, , , , , , , , ,
,

パターン認識

引用文献 (28件)：

本間真一, 小林彰夫, 奥貴裕, 佐藤庄衛, 今井亨, 都木徹, “ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイム字幕制作システム,”映情学誌, vol.63, no.3, pp. 331-338, 2008,
S. Renals, D. Abberley, D. Kirby, and T. Robinson,“Indexing and retrieval of broadcast news,” Speech Commun., vol.32, pp. 5-20, 2000.
M. Federico,“A system for the retrieval of Italian broadcast news,” Speech Commun., vol.32, pp. 37-47, 2000.
M. Dowman, V. Tablan, H. Cunningham, and B. Popov,“Web-assisted annotation, semantic indexing and search of television and radio news,” Proc.14th International World Wide Web Conference, pp. 225-234, 2005.
A. Hauptmann and M. Smith,“Text, speech, and vision for video segmentation: The Informedia project,” Proc. AAAI Fall 1995 Symposium on Com putational Models for Integrating Language and Vi sion, pp. 90-95, 1995.

, , , ,

前のページに戻る