MSE損失下のニューラル崩壊の最適化景観:制約なし特徴による大域的最適性【JST・京大機械翻訳】

Zhou Jinxin; Li Xiao; Ding Tianyu; You Chong; Qu Qing; Zhu Zhihui

プレプリント

J-GLOBAL ID：202202217882011236 整理番号：22P0297888

MSE損失下のニューラル崩壊の最適化景観:制約なし特徴による大域的最適性【JST・京大機械翻訳】

On the Optimization Landscape of Neural Collapse under MSE Loss: Global Optimality with Unconstrained Features

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年03月02日プレプリントサーバーでの情報更新日： 2022年03月12日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

分類タスクのための深層ニューラルネットワークを訓練するとき,興味深い経験的現象は,(i)クラス平均と最後の層分類器がスケーリングまでの単純性等角型Tightフレーム(ETF)の頂点にすべて崩壊し,そして(ii)最後の層活性化の交差例クラス内変動がゼロに崩壊する,最後の層分類器と特徴において広く観察された。この現象は,損失関数の選択に関係なく起こると思われる神経崩壊(NC)と呼ばれる。本研究では,平均2乗誤差(MSE)損失の下でNCを正当化し,そこでは,最近の経験的証拠が,それが,デファクトクロスエントロピー損失よりも,同等か,さらに優れていることを示す。簡易無制約特徴モデルの下で,著者らは,バニラ非凸MSE損失のための最初のグローバル景観解析を提供して,(唯一の!)グローバル最小化器が,神経崩壊解であり,一方,他のすべての臨界点が,Hessianが負の曲率方向を示す厳密な鞍であることを示した。さらに,NC解周辺の最適化景観のプロービングによる再スケールMSE損失の利用を正当化し,景観が再スケーリングハイパーパラメータの調整により改善できることを示した。最後に,著者らの理論的発見を実際のネットワークアーキテクチャ上で実験的に検証した。【JST・京大機械翻訳】

, , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能 , パターン認識

, , , , ,

前のページに戻る