抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
反事実的推論,知性の特質は,観察(仮説生成)からの潜在的変数の推論,代替案(介入)の構築,およびそれらの結果の予測(予測)の3つのステップから成る。このスキルは,LLMの因果的理解を前進させ,科学研究のような高い利害関係の領域におけるその応用を拡大するために不可欠である。しかしながら,LLMの反事実推論能力の評価における既存の努力は,仮説生成ステップをスキップし,介入推論を効果的に低減し,LLM性能の過大評価につながる傾向がある。これに対処するために,コードおよび数学問題を通して因果推論を操作可能にする新しいフレームワークである実行可能反事実を導入した。提案フレームワークでは,反事実推論の3ステップ全てを明示的に要求し,LLMの推論の評価および改善に向けたフロンティアの創造,異なる困難性を持つスケーラブルな合成データ生成を可能にした。著者らの結果は,o4-miniおよびClaude-4-SonnetのようなSOTAモデルに対する介入的推論から反事実的推論への精度(25~40%)の実質的な低下を明らかにした。このギャップに対処するために,筆者らは,他の条件を持つ反事実符号問題及び領域外符号構造(例えば,ループを持つ)に関するテストから成る訓練集合を構築した。また,コード上で訓練されたモデルが反事実的数学語問題に一般化するかどうかも試験した。より強力なモデルの推論トレースに関する教師付き微調整は,Qwenモデルのドメイン内性能を改善するが,反事実的数学問題のようなOODタスクに関する精度の低下をもたらす。対照的に,強化学習はコア認知挙動を誘導し,新しいドメインに一般化し,コード(1.5x-2xの改善)および数学問題の両者に関するベースモデル上の利得を生み出す。推論トレースの解析は,これらの発見を補強し,LLMの反事実推論を改善するためのRLの有望性を強調した。【JST機械翻訳】