RealPRNet:”信頼できる”音声アニメーションのための実時間音素認識ネットワーク【JST・京大機械翻訳】

Yu Zixiao; Wang Haohong; Ren Jian

文献

J-GLOBAL ID：202202281028381547 整理番号：22A1102090

RealPRNet:”信頼できる”音声アニメーションのための実時間音素認識ネットワーク【JST・京大機械翻訳】

RealPRNet: A Real-Time Phoneme-Recognized Network for “Believable” Speech Animation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1102090&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1102090&from=J-GLOBAL&jstjournalNo=W2432A") }}

著者 (3件)： , ,
資料名：
巻： 9 号： 7 ページ： 5357-5367 発行年： 2022年
JST資料番号： W2432A ISSN： 2327-4662 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

技術開発により,ディスプレイ付きのますます多くのモノのインターネット(IoT)デバイスは,現実感を可視化して「面対面」相互作用を作る。ユーザのプライバシーを保護するために,通信はアバタを通して表現することができ,オーディオ駆動リアルタイム音声アニメーションを使用する。しかしながら,オーディオが唯一の利用可能な入力であるならば,結果の品質は,認識精度と待ち時間のようなリアルタイム音素認識に大きく依存する。本論文では,入力オーディオデータにおける空間および時間パターンを利用するために,新しい深層学習ベース実時間音素認識ネットワーク(RealPRNet)方式を導入した。長い短期メモリスタックブロックと長い短期特徴によって,実際のPRNetは音素認識において超性能を達成できる。この包括的な経験的結果は,最先端のアルゴリズムと比較して,実際のPRNetが最良事例で20%音素誤り率(PER)改善と4%ブロック誤差距離(BDE)改善を達成できることを示した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

パターン認識

, , , ,

前のページに戻る