Doingによる学習:因果律,制御,強化学習を用いた動的システムの制御【JST・京大機械翻訳】

Weichwald Sebastian; Mogensen Soren Wengel; Lee Tabitha Edith; Baumann Dominik; Kroemer Oliver; Guyon Isabelle; Trimpe Sebastian; Peters Jonas; Pfister Niklas

プレプリント

J-GLOBAL ID：202202212024691634 整理番号：22P0288664

Doingによる学習:因果律,制御,強化学習を用いた動的システムの制御【JST・京大機械翻訳】

Learning by Doing: Controlling a Dynamical System using Causality, Control, and Reinforcement Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (9件)： , , , , , , , ,
資料名：
発行年： 2022年02月12日プレプリントサーバーでの情報更新日： 2022年02月12日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

因果律,制御,および強化学習における質問は,i.i.d.観察の下で予測の古典的機械学習タスクを超えた。代わりに,これらの分野は,応答変数に対する特定の効果を達成するために,システムを能動的に摂動する方法を学習する問題を考察する。おそらく,それらは問題に関して相補的な見解を持つ:制御において,通常は,システムを制御するためにモデルベースの設計技術を適用するために,励起戦略によってシステムを最初に同定することを意図する。(非モデルベース)強化学習において,1つは報酬を直接最適化する。因果関係において,1つの焦点は因果構造の同定可能性である。著者らは,異なる見解を結合することが協力作用を生み出し,この競争がそのような協力に向けた最初の段階として意味があると信じる。参加者は,動的システムによって生成された観察および(オフライン)介入データへのアクセスを有した。Track CHEMは,動力学の始めに単一インパルスが設定できる開ループ問題を考慮し,一方,Track ROBOは,制御変数が各時間ステップで設定できる閉ループ問題を考慮する。両トラックの目標は,システムを望ましい状態に駆動する制御を推論することである。コードは,競争の勝利解を再現するためのオープンソース(https://github.com/LearningByDoingCompetition/learningbydoing comp)であり,競争タスクに関する新しい方法の試みを容易にする。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

人工知能

, , ,

前のページに戻る