文献
J-GLOBAL ID:201102225783189528   整理番号:11A0130004

実時間音声-字幕システムに対する話者の顔と字幕の表示タイミング決定方法

A Method for Determining the Timing of Displaying the Speaker’s Face and Captions for a Real-Time Speech-to-Caption System
著者 (5件):
資料名:
巻:号:ページ: 402-408  発行年: 2010年11月30日 
JST資料番号: L7831A  ISSN: 1882-4889  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本文の著者たちは,”反復発話”法による音声認識手法を使用する実時間音声-字幕システムを研究してきている。このシステムでは,講師の音声を聞き,それから講師の言葉の発語を音声認識計算機へ繰返し話す”反復話者”を使用した。いくつかの国際会議で,進行中のシステムは,日本語-日本語変換で字幕の正確さ約97%,英語-英語変換で音声から字幕への変換時間約4秒を示した。もちろん,これらの高性能を達成するのに多くのコストを必要とした。人間の意志伝達では,言葉理解は言葉情報だけでなく,話者のジェスチャや,顔と口の動きにも依存する。そこで,著者たちは,情報を一旦計算機に簡潔に蓄積した後,より高い理解を得る適切な方法で字幕情報と話者の顔の動き画像とを表示する方策を見出した。本文では,表示シーケンスと,音声認識誤りを有する字幕と話者の顔動き画像との間の表示タイミングとの関係を研究した。その結果は,”話者顔画像より先に字幕を表示する”シーケンスが,字幕の理解を向上させることを示している。”両者を同時に表示する”シーケンスは,論点の意味合いよりわずか数パーセントの改善だけを示し,そして,”話者の顔画像を字幕以前にに表示する”シーケンスは,ほとんど変化を示さない。加えて,話者の顔画像より1秒前に字幕を表示するシーケンスは,全ての条件の最も目覚しい改善を示している。(翻訳著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  図形・画像処理一般 
引用文献 (21件):
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る