文献
J-GLOBAL ID:202002282380614408   整理番号:20A0597305

ショットおよび正規音声分類のための励起源情報の探索【JST・京大機械翻訳】

Exploration of excitation source information for shouted and normal speech classification
著者 (3件):
資料名:
巻: 147  号:ページ: 1250-1261  発行年: 2020年 
JST資料番号: C0249A  ISSN: 0001-4966  CODEN: JASMAN  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
シューティングと通常の音声の識別は多くの音声処理応用のための必須条件である。既存の研究により,励起源情報がシューティング音声生成において重要な役割を果たしていることが確立されている。音声処理文献において,様々な特徴が励起源の異なる側面をモデル化するために提案されている。本研究の主な貢献は,3つのそのような特徴,すなわち,統合線形予測抵抗(DCT-ILPR)の離散余弦変換,サブバンド(MPDSS)におけるスペクトルのMel-パワー差分,および,シューティングおよび通常の音声分類のための残留周波数ケプストラム係数(RMFCC)を調査することである。DCT-ILPR特徴は声門サイクルの形状を表し,MPDSSは励起源スペクトルの周期性を推定し,RMFCCは励起源の平滑化スペクトル情報を特徴付ける。また,著者らは,シューティングと正常な音声を含むデータセットに貢献した。本研究は3つのデータセットについて評価し,3つのベースライン法に対してベンチマーキングした。深いニューラルネットワークを用いて,個々の特徴とそれらの組合せの分類性能を研究した。特徴(及び組合せ)の一般化性能も調べた。励起源特徴とMel-周波数ケプストラム係数(MFCC)の融合は,他の組合せと比較して最良の性能を提供する。雑音解析は,MFCC+ΔΔによる励起特徴の追加が,よりロバストな分類システムを提供することを示した。Copyright 2020 AIP Publishing LLC All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  聴覚・音声モデル 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る