深層線形ニューラルネットワークの訓練におけるNesterovの加速勾配法の収束解析【JST・京大機械翻訳】

Liu Xin; Tao Wei; Pan Zhisong

プレプリント

J-GLOBAL ID：202202219264687566 整理番号：22P0333594

深層線形ニューラルネットワークの訓練におけるNesterovの加速勾配法の収束解析【JST・京大機械翻訳】

A Convergence Analysis of Nesterov's Accelerated Gradient Method in Training Deep Linear Neural Networks

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年04月18日プレプリントサーバーでの情報更新日： 2022年04月18日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

重いボール(HB)とNesterovの加速勾配(NAG)を含む運動量法は,それらの高速収束のためのニューラルネットワークの訓練に広く使用されている。しかし,ニューラルネットワークの最適化景観が非凸であるため,それらの収束と加速に対する理論的保証の欠如がある。今日,いくつかの研究は,パラメータの数が訓練インスタンスのそれを超過する過パラメータ化領域における運動量法の収束の理解に向けて進展する。それにもかかわらず,現在の結果は,主に2層ニューラルネットワークに焦点を合わせ,それは,深層ニューラルネットワークの訓練における運動量法の著しい成功を説明することから遠い。これに動機付けられて,深い線形ネットワーク,すなわち深い完全接続線形ニューラルネットワークと深い線形ResNetの2つのアーキテクチャの訓練において,一定の学習速度と運動量パラメータを有するNAGの収束を研究した。過パラメータ化領域に基づいて,まず,ランダムGauss初期化の下で,深い完全接続線形ニューラルネットワークのためのNAGの訓練軌道によって誘発される残差動力学を解析した。その結果,NAGは(1-O(1/√κ)) ̄tレートで大域的最小に収束し,そこでは,tは反復数であり,ΔΨ1は特徴行列の条件数に依存して一定であった。GDの(1-O(1/κ)) ̄t速度と比較して,NAGはGD上の加速を達成した。著者らの知る限り,これは,訓練深層ニューラルネットワークにおける大域的最小に対するNAGの収束に対する最初の理論的保証である。さらに,この解析を深い線形ResNetに拡張し,類似の収束結果を導いた。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能 , ニューロコンピュータ

, , , , , ,

前のページに戻る