唇画像からの音声生成における話者依存性の分析

金澤尚希; 鈴木基之

文献

J-GLOBAL ID：202102285131861152 整理番号：21A1938605

唇画像からの音声生成における話者依存性の分析

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A1938605&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A1938605&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (2件)： ,
資料名：
巻： 2021 号： MUS-131 ページ： Vol.2021-MUS-131,No.19,1-6 (WEB ONLY) 発行年： 2021年06月11日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,様々な手法のサイレント音声技術が研究されているが,精度の改善が目下の課題である.これらの手法の内,本研究では唇画像からの音声生成に注目した.現在,DNNを用いて唇画像からスペクトル特徴量や基本周波数を推定して音声生成を行う手法では話者性が生成した音声の品質にどの程度の影響を与えるか考慮されていない.そのため,本研究では特定話者モデル,不特定話者モデル,話者適応モデルに評価実験を行った.その結果,話者適応モデルの正答率は71%となり,不特定話者モデルより10ポイント程度向上することがわかった.(著者抄録)

, , , , , , , , , ,
, , , , , , ,

パターン認識

引用文献 (9件)：

Y. Assaeletal., “LipNet : end-to-end sentence-level lipreading,” arXiv:1611.01599, (2016)
福見稔,“乾式電極を用いた口唇EMGによる個人認証” 電気学会・電子情報システム部門大会,(2018)
暦本純一,木村直紀,河野通就,“SottoVoce:超音波画像と深層学習による無発声音声インタラクション”情報処理学会インタラクション,(2019)
伊藤大貴,滝口哲也,有木康雄,“LipNet構造を用いた唇画像から音声への変換” 日本音響学会研究発表会講演論文集,2018号, ROMBUNNO.2-Q-30, (2018)
酒向慎司, 徳田恵一, 益子貴史, 小林隆夫, 北村正,“HMM に基づいた視聴覚テキスト音声合成-画像ベースアプローチ” 情報処理学会論文誌, vol.43, no.7, pp.2169-2176,2002)

, , , ,

前のページに戻る