プレプリント
J-GLOBAL ID:202202213265711330   整理番号:22P0291121

ニューラルネットワーク枝刈りにおける反復微調整に基づく小型オーディオビジュアルウェークワードスポッティングシステムの設計の研究【JST・京大機械翻訳】

A Study of Designing Compact Audio-Visual Wake Word Spotting System Based on Iterative Fine-Tuning in Neural Network Pruning
著者 (5件):
資料名:
発行年: 2022年02月17日  プレプリントサーバーでの情報更新日: 2022年02月17日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
信号伝送における環境干渉のため,オーディオのみに基づく伴流単語スポッティング(WWS)は,雑音の多い条件下で挑戦的である。本論文では,劣化を軽減するために視覚情報を利用してコンパクトなオーディオビジュアルWWSシステムの設計を検討した。具体的には,視覚情報を利用するために,最初に,モバイルネットで固定サイズのベクトルに検出したリップを符号化し,それらを音響特徴で接続し,WWSのための融合ネットワークが続く。しかし,ニューラルネットワークに基づくオーディオビジュアルモデルは大きなフットプリントと高い計算量を必要とする。応用要求に応えるため,反復微調整法(LTH-IF)において,単一モードおよびマルチモーダルモデルに対して,それぞれ,ロタリーマケット仮説を介してニューラルネットワーク剪定戦略を導入した。家庭TVシーンにおけるオーディオビジュアルWWSのための著者らのインハウスコーパスに関して,提案したオーディオビジュアルシステムは,異なる雑音条件の下で,単一モダリティ(オーディオのみまたはビデオのみ)システムに対して顕著な性能改善を達成した。さらに,LTH-IF剪定は,WWS性能の劣化なしにネットワークパラメータおよび計算を大きく低減でき,TV伴流シナリオに対する潜在的製品解を導いた。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 

前のページに戻る