実行可能反事実:コードを通したLLMの因果推論の改善【JST機械翻訳】

Vashishtha Aniket; Dai Qirun; Mei Hongyuan; Sharma Amit; Tan Chenhao; Peng Hao

プレプリント

J-GLOBAL ID：202502215401770090 整理番号：25P0262494

実行可能反事実:コードを通したLLMの因果推論の改善【JST機械翻訳】

Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
このテーマを更に深掘りする（JDreamⅢへ）

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

arXiv掲載論文の撤回有無については、一次情報をご確認下さい。

著者 (6件)： , , , , ,
資料名：
発行年： 2025年10月02日プレプリントサーバーでの情報更新日： 2025年10月03日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント言語：英語 (EN)

反事実的推論,知性の特質は,観察(仮説生成)からの潜在的変数の推論,代替案(介入)の構築,およびそれらの結果の予測(予測)の3つのステップから成る。このスキルは,LLMの因果的理解を前進させ,科学研究のような高い利害関係の領域におけるその応用を拡大するために不可欠である。しかしながら,LLMの反事実推論能力の評価における既存の努力は,仮説生成ステップをスキップし,介入推論を効果的に低減し,LLM性能の過大評価につながる傾向がある。これに対処するために,コードおよび数学問題を通して因果推論を操作可能にする新しいフレームワークである実行可能反事実を導入した。提案フレームワークでは,反事実推論の3ステップ全てを明示的に要求し,LLMの推論の評価および改善に向けたフロンティアの創造,異なる困難性を持つスケーラブルな合成データ生成を可能にした。著者らの結果は,o4-miniおよびClaude-4-SonnetのようなSOTAモデルに対する介入的推論から反事実的推論への精度(25~40%)の実質的な低下を明らかにした。このギャップに対処するために,筆者らは,他の条件を持つ反事実符号問題及び領域外符号構造(例えば,ループを持つ)に関するテストから成る訓練集合を構築した。また,コード上で訓練されたモデルが反事実的数学語問題に一般化するかどうかも試験した。より強力なモデルの推論トレースに関する教師付き微調整は,Qwenモデルのドメイン内性能を改善するが,反事実的数学問題のようなOODタスクに関する精度の低下をもたらす。対照的に,強化学習はコア認知挙動を誘導し,新しいドメインに一般化し,コード(1.5x-2xの改善)および数学問題の両者に関するベースモデル上の利得を生み出す。推論トレースの解析は,これらの発見を補強し,LLMの反事実推論を改善するためのRLの有望性を強調した。【JST機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能 , 応用心理学

ライセンス情報：

前のページに戻る