文献
J-GLOBAL ID:202102285131861152   整理番号:21A1938605

唇画像からの音声生成における話者依存性の分析

著者 (2件):
資料名:
巻: 2021  号: MUS-131  ページ: Vol.2021-MUS-131,No.19,1-6 (WEB ONLY)  発行年: 2021年06月11日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年,様々な手法のサイレント音声技術が研究されているが,精度の改善が目下の課題である.これらの手法の内,本研究では唇画像からの音声生成に注目した.現在,DNNを用いて唇画像からスペクトル特徴量や基本周波数を推定して音声生成を行う手法では話者性が生成した音声の品質にどの程度の影響を与えるか考慮されていない.そのため,本研究では特定話者モデル,不特定話者モデル,話者適応モデルに評価実験を行った.その結果,話者適応モデルの正答率は71%となり,不特定話者モデルより10ポイント程度向上することがわかった.(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
引用文献 (9件):
  • Y. Assaeletal., “LipNet : end-to-end sentence-level lipreading,” arXiv:1611.01599, (2016)
  • 福見 稔,“乾式電極を用いた口唇EMGによる個人認証” 電気学会・電子情報システム部門大会,(2018)
  • 暦本 純一,木村 直紀,河野 通就,“SottoVoce:超音波画像と深層学習による無発声音声インタラクション”情報処理学会 インタラクション,(2019)
  • 伊藤 大貴,滝口 哲也,有木 康雄,“LipNet構造を用いた唇画像から音声への変換” 日本音響学会研究発表会講演論文集,2018号, ROMBUNNO.2-Q-30, (2018)
  • 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正,“HMM に基づいた視聴覚テキスト音声合成-画像ベースアプローチ” 情報処理学会論文誌, vol.43, no.7, pp.2169-2176,2002)
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る