時間論理ベース報酬整形による強化学習を用いた分散制御【JST・京大機械翻訳】

Zhang Ningyuan; Liu Wenliang; Belta Calin

プレプリント

J-GLOBAL ID：202202202301957927 整理番号：22P0300822

時間論理ベース報酬整形による強化学習を用いた分散制御【JST・京大機械翻訳】

Distributed Control using Reinforcement Learning with Temporal-Logic-Based Reward Shaping

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年03月08日プレプリントサーバーでの情報更新日： 2022年04月06日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

部分的に観察可能な環境におけるロボットの不均一チームのための分散制御戦略の合成のための計算フレームワークを提示した。目標は,Trunced線形時間論理(TLTL)公式として与えられた仕様を協調的に満足することである。提案アプローチでは,確率的ゲームとして合成問題を定式化し,各エージェントに対するメモリによる制御戦略を見つけるためのポリシーグラフ法を採用した。TLTL公式の満足を追跡するチーム遷移システムと有限状態オートマトン(FSA)の間の製品に関する確率的ゲームを構築した。ゲームの報酬としてTLTLの定量的意味論を用いて,学習プロセスをガイドし,加速するためにFSAを用いてそれをさらに再構成した。シミュレーション結果は,要求タスク仕様と学習速度を著しく加速する報酬成形の有効性の下で提案した解決策の有効性を実証した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

人工知能 , ゲーム理論

, , , ,

前のページに戻る