部分的に制約された入力をもつ連続時間完全協力ゲームのためのデータ駆動適応動的計画法【Powered by NICT】

Zhang Qichao; Zhang Qichao; Zhao Dongbin; Zhao Dongbin; Zhu Yuanheng; Zhu Yuanheng

文献

J-GLOBAL ID：201702217087507871 整理番号：17A0473040

部分的に制約された入力をもつ連続時間完全協力ゲームのためのデータ駆動適応動的計画法【Powered by NICT】

Data-driven adaptive dynamic programming for continuous-time fully cooperative games with partially constrained inputs

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A0473040&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A0473040&from=J-GLOBAL&jstjournalNo=W0360A") }}

著者 (6件)： , , , , ,
資料名：
巻： 238 ページ： 377-386 発行年： 2017年
JST資料番号： W0360A ISSN： 0925-2312 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

本論文では,連続時間マルコフ決定過程環境における部分的に拘束された入力をもつ完全に協力ゲームは,新しいデータ駆動型適応動的計画法を用いて調べた。一一反復ループによるモデルベース政策反復アルゴリズムを提案し,システム動力学の知識が要求される。価値関数と制御政策の反復配列は最適なものに収束することを証明した。システムダイナミックスの正確な知識を緩和するために,モデルベースアルゴリズムと積分強化学習に基づいて導出しモデルフリー反復方程式。さらに,発生したシステムデータを用いたモデル方程式を解くために開発したデータ駆動型適応動的計画法。理論解析から,このモデルフリー反復方程式であるモデルベース反復方程式,データ駆動アルゴリズムは最適値関数および制御ポリシーを近づけることができることを意味すると等価であることを証明した。実装目的のために,利用可能なシステムデータはオンライン測定相で収集される後三ニューラルネットワークはオフポリシー学習スキームを用いたモデルフリー反復方程式の解を近似するために構築した。最後に二つの例により,提案方式の有効性を実証した。Copyright 2017 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【Powered by NICT】

, , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

著者キーワード (6件)： , , , , ,

人工知能

, , , , ,

前のページに戻る