文献
J-GLOBAL ID:201002200624358939   整理番号:10A0967363

騒音環境におけるMFCCならびに位相情報を結合した話者認識

Speaker Recognition by Combining MFCC and Phase Information in Noisy Conditions
著者 (4件):
資料名:
巻: E93-D  号:ページ: 2397-2406  発行年: 2010年09月01日 
JST資料番号: L1371A  ISSN: 0916-8532  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
この論文では,著者らは,騒音環境における話者認識のために位相の有効性を調査し,メル周波数ケプストラム係数(MFCCs)に位相情報を結合する。これまで,ほとんどの話者認識方法は,騒音環境においてもMFCCsに基づいていた。声道情報を主に捕捉するMFCCsに関しては,時間領域スピーチフレームのフーリエ変換の大きさだけが使用されており,位相情報は無視されていた。位相情報は豊かな音声ソース情報を含んでいるので,位相情報とMFCCsの高い補完が期待される。さらに,何人かの研究者が,位相ベースの特徴が雑音にロバストであることを報告している。著者らのこれまでの研究で,入力スピーチの切り出し位置に依存する位相変化の変動を正規化する位相情報抽出方法が提案されており,位相情報とMFCCsの組み合わせの性能はMFCCsのものより著しく優れていた。この論文では,著者らは,騒音環境における話者識別のための提案された位相情報のロバスト性を評価する。スペクトル減算,低エネルギー/信号対雑音(SN)でフレームをスキップする方法,および騒音スピーチトレーニングモデルを,騒音環境で位相情報とMFCCsの効果を分析するのに使用する。定常/非定常雑音を付加されたNTTデータベースとJNAS(日本の新聞記事センテンス)データベースを,著者らの提案方法を評価するのに使用した。MFCCsは,雑音のないスピーチに対しては位相情報より優れていた。他方,雑音のあるスピーチでは,位相情報の劣化はMFCCsのものよりかなり小さかった。位相情報の個々の結果は,多くの場合,雑音のないスピーチトレーニングモデルによる多くのケースにおけるMFCCsのものよりむしろ優れていた。非信頼性フレーム(低エネルギー/SN)を除去することによって,話者識別性能は顕著に向上した。位相情報をMFCCsと統合することによって,標準のMFCCベースの方法と比べて,話者識別誤り減少率は約30%から60%となった。(翻訳著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る