文献
J-GLOBAL ID:201402253361863965   整理番号:14A0090435

LSTMリカレントニューラルネットワークによる日常生活音声区間検出とそのハリウッド映画への応用

REAL-LIFE VOICE ACTIVITY DETECTION WITH LSTM RECURRENT NEURAL NETWORKS AND AN APPLICATION TO HOLLYWOOD MOVIES
著者 (4件):
資料名:
巻: 2013 Vol.1  ページ: 483-487  発行年: 2013年 
JST資料番号: E0316B  ISSN: 1520-6149  資料種別: 会議録 (C)
記事区分: 短報  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
音声区間検出は,自動音声認識やオーディオ符号化など種々の業務で重要な役割を果たす。各種手法が提案されているが,背景雑音の多い場合にその性能は劣化する。本論文は,伝統的なフレームごと特徴は利用するが,分類器が入力の動特性を学習し,先行する入力を現行フレームの決定に適応的に利用する新しい音声区間検出法を提案した。この手法は,Hermanskyが示した標準のPASTA-PLP(知覚線形予測)フロントエンド特徴で訓練する,LSTM(長短期記憶)リカレントニューラルネットワークを利用した。評価用のデータ集合として,雑音を制御した条件下での自発および読取り音声の合成データと,高度に非定常雑音を含むハリウッド映画のオーディオトラックを使用した。実験の結果,フレームごと等誤り率として33.2%などの,3種の最新アルゴリズムよりも良好な性能を達成した。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  人工知能 

前のページに戻る