文献
J-GLOBAL ID:201402260209672891   整理番号:14A0102324

音響不変性を音声混同とトレードするための不均質プール化を利用した深層畳込みニューラルネットワーク

A DEEP CONVOLUTIONAL NEURAL NETWORK USING HETEROGENEOUS POOLING FOR TRADING ACOUSTIC INVARIANCE WITH PHONETIC CONFUSION
著者 (3件):
資料名:
巻: 2013 Vol.10  ページ: 6669-6673  発行年: 2013年 
JST資料番号: E0316B  ISSN: 1520-6149  資料種別: 会議録 (C)
記事区分: 短報  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層ニューラルネットワーク(DNN)に,畳込みとそれに続くプール化を導入した深層畳込みニューラルネットワーク(CNN)が,画像認識で成功を収めている。しかし音声認識では単純な畳込み・プール化は,音声クラス間の混同を招き,識別能力が低下する。この画像と音声間の基本的違いを動機として,本論文は,画像認識に適用される深層CNNにより得られる音声認識の誤りパターンを解析した。音声スペクトログラムにおける制約付き周波数シフト不変性を,このような不変性が導入する音声クラス混同を最小化しながら実現する不均質プール化(HP)を利用して,HP-CNNと呼ぶ新しい方式を設計した。プール化サイズの重みづけ混合を利用して,クラス内不変性とクラス間識別のトレードを可能とした。TIMIT音素認識について単体システムで話者情報を利用しない場合に,既存報告では最善の約19%の音素誤り率を達成した。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  人工知能 

前のページに戻る