プレプリント
J-GLOBAL ID:202202214236717792   整理番号:22P0288999

顕微鏡下のスケーリング則:小規模実験からの変圧器性能の予測【JST・京大機械翻訳】

Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments
著者 (3件):
資料名:
発行年: 2022年02月13日  プレプリントサーバーでの情報更新日: 2022年10月18日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ニューラルスケーリング則は,べき乗則の形式で訓練後のモデルパラメータ数とその性能の間の予測可能な関係を定義する。しかし,今日までのほとんどの研究は,スケーリング則がモデル開発を加速するために使用できるかどうかを明確に調査しなかった。本研究では,数10Kのパラメータを持つモデルから出発して,広い範囲の言語理解タスクを横断して,そのような経験的調査を行い,9言語理解タスクを横断して下流性能を評価する。スケーリング則は,いくつかのNLPタスクにおいて微調整時間において現れ,また,それらが大規模モデルを訓練するとき,収束をデバッギングするために利用できることを見出した。さらに,スケーリング則が存在するタスクに対して,それらは,効果的なモデル選択を可能にする大きなモデルの性能を予測するために使用できる。しかし,スケーリング則を明らかにすることは,不確実性推定の目的で,注意深いハイパーパラメータチューニングと多重実行を必要とし,付加的オーバヘッドを発生し,計算上の利点を部分的に相殺する。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  自然語処理 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る