抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
大規模言語モデル(LM)は,いくつかの入力ラベル対(実証)の条件付けと新しい入力の予測を行うことによって,推論だけで新しいタスクを学習できる。しかし,モデルがどのように学習し,実証の側面がエンドタスク性能に寄与するかの理解はほとんどなかった。本論文では,グラウンドトルース実証は,実際には,GPT-3を含む12の異なるモデルにわたって,分類とマルチチョークタスクの範囲において,実際には,ラベルをランダムに置換する必要がないことを示す。代わりに,実証の他の側面は,ラベル空間,入力テキストの分布,および(3)シーケンスの全体フォーマットの2,3の例を提供するという事実を含む,エンドタスクパフォーマンスの重要な駆動者であることを発見した。総合して,著者らの解析は,どのように,インコテキスト学習が働くかを理解する新しい方法を提供し,一方,推論だけを通して,大規模言語モデルから,どれくらい学習できるかについて,新しい疑問を切り開く。【JST・京大機械翻訳】