抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
重いボール(HB)とNesterovの加速勾配(NAG)を含む運動量法は,それらの高速収束のためのニューラルネットワークの訓練に広く使用されている。しかし,ニューラルネットワークの最適化景観が非凸であるため,それらの収束と加速に対する理論的保証の欠如がある。今日,いくつかの研究は,パラメータの数が訓練インスタンスのそれを超過する過パラメータ化領域における運動量法の収束の理解に向けて進展する。それにもかかわらず,現在の結果は,主に2層ニューラルネットワークに焦点を合わせ,それは,深層ニューラルネットワークの訓練における運動量法の著しい成功を説明することから遠い。これに動機付けられて,深い線形ネットワーク,すなわち深い完全接続線形ニューラルネットワークと深い線形ResNetの2つのアーキテクチャの訓練において,一定の学習速度と運動量パラメータを有するNAGの収束を研究した。過パラメータ化領域に基づいて,まず,ランダムGauss初期化の下で,深い完全接続線形ニューラルネットワークのためのNAGの訓練軌道によって誘発される残差動力学を解析した。その結果,NAGは(1-O(1/√κ)) ̄tレートで大域的最小に収束し,そこでは,tは反復数であり,ΔΨ1は特徴行列の条件数に依存して一定であった。GDの(1-O(1/κ)) ̄t速度と比較して,NAGはGD上の加速を達成した。著者らの知る限り,これは,訓練深層ニューラルネットワークにおける大域的最小に対するNAGの収束に対する最初の理論的保証である。さらに,この解析を深い線形ResNetに拡張し,類似の収束結果を導いた。【JST・京大機械翻訳】