文献
J-GLOBAL ID:202102224059797710   整理番号:21A0444695

唇を越えて音声を読むことができるか?深い視覚音声認識のためのRoI選択の再考【JST・京大機械翻訳】

Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition
著者 (5件):
資料名:
巻: 2020  号: FG  ページ: 356-363  発行年: 2020年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層学習の最近の進歩は,視覚音声認識(VSR)の分野で研究者間で関心を高めている。現在,ほとんどの既存の方法は,自動口唇読書でVSRを等しくし,それは口唇運動を分析することによって音声を認識することを試みている。しかし,人間の経験と心理学的研究は,顔対面会話の間,それぞれ他の口唇で著者らの注視を常に固定しないが,むしろ全体の顔を反復的にスキャンすることを示唆する。これは,基本的ではあるがいくつかの見落とされた問題を再考するのを鼓舞する:VSRモデルは,口外顔領域,すなわち口唇を越えて読むことから利益を得る。本論文では,口,全面,上面,および頬を含む最先端のVSRモデルを有する異なる顔領域の影響の評価に関する包括的研究を行った。実験は,異なる特性を有する単語レベルおよび文章レベルベンチマークの両方で行った。データの複雑な変動にもかかわらず,上面であっても,VSR性能に一貫して利益を与えることを見出した。さらに,顔ベースのVSRに対するより識別的な特徴の学習のために,Cutoutに基づく簡単で効果的な方法を導入し,異なる顔領域で符号化された情報の有用性を最大化することを期待する。著者らの実験は,入力としてリップ領域だけを使用する既存の最先端の方法に関する明白な改良を示し,その結果,著者らは,おそらく,いくつかの新規で刺激的な洞察を有するVSRコミュニティを提供するであろうと信じる。Copyright 2021 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る