文献
J-GLOBAL ID:201702250913345695   整理番号:17A0028451

頑健なささやき音声認識のための疑似ささやきの生成的モデリング

Generative Modeling of Pseudo-Whisper for Robust Whispered Speech Recognition
著者 (3件):
資料名:
巻: 24  号: 10  ページ: 1705-1720  発行年: 2016年 
JST資料番号: W0508B  ISSN: 2329-9290  CODEN: ITASFA  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ささやきは,人の邪魔にならないようにしたり個人情報を交換したりするのによく使われる伝達手段であり,音声スタイルとしては,オープンオフィス又は公共の場の状況における人とノートパソコン/パソコン交流に対する理想的候補であろう。残念ながら,現行の音声技術は,主に叙法的な中性音声に焦点を合わせており,ささやきに対しては全く駄目になる。ささやき認識エンジンの成功に対する主な障害の一つは,ささやき用に書き換えられた音声コーパスが入手できないことである。本研究は,書き換えられていない少量のささやきサンプルだけで,容易にアクセスできる叙法的音声録音から膨大な量の疑似ささやき発話を作り出せる戦略を二つ紹介した。一旦作られると,この疑似ささやきサンプルを使って,音声認識器の叙法的な音響モデルをささやきに適応させる。最初の戦略はベクトルTaylor級数(VTS)に基づいており,ささやき「背景」モデルをまず訓練して,少量の実際のささやきデータから大域的ささやき特性のおおよその推定を捉える。次に,この背景モデルをVTSで利用して,叙法的発話の各入力からその疑似ささやき版へ,無声と有声の音素クラス変換を確立する。第二の戦略は,雑音除去オートエンコーダ(DAE)により,疑似ささやきサンプルを生成する。一方はフレームごとの疑似ささやきケプストラム特徴を作り出し,他方は全音素セグメントに対する疑似ささやき統計量を生成する,二つの生成モデルを調べた。制約語いによるささやき認識課題に対してTIMITで訓練された音声識別器のワード誤り率は,音響モデルをVTS又はDAEに適合させた後は,利用可能な小型ささやきセットでのモデル適合に比べてかなり減少することが分かった。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  パターン認識 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る