文献
J-GLOBAL ID:201502202321683526   整理番号:15A0393567

声質変換を用いた音声特徴量疑似生成による話者適応

Data Augmented Speaker Adaptation of Acoustic Models via Voice Conversion
著者 (5件):
資料名:
巻: 114  号: 411(SP2014 127-134)  ページ: 13-18  発行年: 2015年01月15日 
JST資料番号: S0532B  ISSN: 0913-5685  資料種別: 会議録 (C)
記事区分: 短報  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
音声認識システムにおいて,ある特定の話者の認識精度を高める為に,音響モデルパラメータを話者に適応化する手法はいくつも提案されてきた。一般的に,このような話者適応手法は,認識しようとする話者(対象話者)の学習データ量に依存して,その効果が上下する事が報告されている。しかしながら,対象話者の音声データを話者適応効果が飽和するまで十分収集することは,実システムにおいては非常に困難である。そこで本稿では,音響モデルにおける話者適応の効果をより一層高めるため,対象話者の音声データを声質変換手法に基づき疑似的に生成する枠組みを提案する。ここで声質変換手法の利用に際し,本枠組みにおいては,データベース上に認識対象話者とは異なる話者(変換元話者)の音声データを所有し,なお且つ,その変換元話者の発話の一部は,対象話者の発話と同一内容で収集されているシチュエーションを考える。このようなパラレルデータを元に声質変換モデルを学習しておくことで,対象話者の音声データを変換元話者から新たに疑似生成しておく事が可能となり,話者適応実行時の学習データを増大させる事が可能になる。なお,声質変換用モデルとして,本稿においてはニューラルネットワークを用いた。提案法を評価するために,2人の話者(話者A,話者B)において,出力層のみパラメータ更新した話者適応モデルと,提案法により疑似生成されたデータも含めた話者適応モデルとの比較実験を行い,話者Aでは約0.3ポイント,話者Bでは約0.8ポイントの改善が確認された。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  音声処理 
引用文献 (18件):
もっと見る
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る