プレプリント
J-GLOBAL ID:202202219264687566   整理番号:22P0333594

深層線形ニューラルネットワークの訓練におけるNesterovの加速勾配法の収束解析【JST・京大機械翻訳】

A Convergence Analysis of Nesterov's Accelerated Gradient Method in Training Deep Linear Neural Networks
著者 (3件):
資料名:
発行年: 2022年04月18日  プレプリントサーバーでの情報更新日: 2022年04月18日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
重いボール(HB)とNesterovの加速勾配(NAG)を含む運動量法は,それらの高速収束のためのニューラルネットワークの訓練に広く使用されている。しかし,ニューラルネットワークの最適化景観が非凸であるため,それらの収束と加速に対する理論的保証の欠如がある。今日,いくつかの研究は,パラメータの数が訓練インスタンスのそれを超過する過パラメータ化領域における運動量法の収束の理解に向けて進展する。それにもかかわらず,現在の結果は,主に2層ニューラルネットワークに焦点を合わせ,それは,深層ニューラルネットワークの訓練における運動量法の著しい成功を説明することから遠い。これに動機付けられて,深い線形ネットワーク,すなわち深い完全接続線形ニューラルネットワークと深い線形ResNetの2つのアーキテクチャの訓練において,一定の学習速度と運動量パラメータを有するNAGの収束を研究した。過パラメータ化領域に基づいて,まず,ランダムGauss初期化の下で,深い完全接続線形ニューラルネットワークのためのNAGの訓練軌道によって誘発される残差動力学を解析した。その結果,NAGは(1-O(1/√κ)) ̄tレートで大域的最小に収束し,そこでは,tは反復数であり,ΔΨ1は特徴行列の条件数に依存して一定であった。GDの(1-O(1/κ)) ̄t速度と比較して,NAGはGD上の加速を達成した。著者らの知る限り,これは,訓練深層ニューラルネットワークにおける大域的最小に対するNAGの収束に対する最初の理論的保証である。さらに,この解析を深い線形ResNetに拡張し,類似の収束結果を導いた。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  ニューロコンピュータ 

前のページに戻る