政策反復法に基づく適応型動的計画法アルゴリズムを用いたマルチプレーヤのための離散時間非ゼロ和ゲーム【Powered by NICT】

Zhang Huaguang; Jiang He; Luo Chaomin; Xiao Geyang

文献

J-GLOBAL ID：201702264707527712 整理番号：17A1392803

政策反復法に基づく適応型動的計画法アルゴリズムを用いたマルチプレーヤのための離散時間非ゼロ和ゲーム【Powered by NICT】

Discrete-Time Nonzero-Sum Games for Multiplayer Using Policy-Iteration-Based Adaptive Dynamic Programming Algorithms

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1392803&from=J-GLOBAL&jstjournalNo=W0791A") }}

著者 (4件)： , , ,
資料名：
巻： 47 号： 10 ページ： 3331-3340 発行年： 2017年
JST資料番号： W0791A ISSN： 2168-2267 CODEN： ITCEB8 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,新しいポリシー反復法(PI)を用いた適応動的計画法(ADP)法による離散時間(DT)非線形システムのクラスのための非ゼロ和ゲームを研究した。提案PI方式の主なアイデアは,反復制御政策,安定性を達成するため,各プレーヤのための性能指数関数を最小化するシステムを保証するだけでなく,を得るために反復ADPアルゴリズムを利用することである。本論文では,多層のためのDT非零和ゲームを定式化し,処理するためにゲーム理論,最適制御理論と強化学習技術統合した。三アクター-クリティックアルゴリズム,オフラインと二オンラインを設計,PI方式。続いて,ニューラルネットワークを用いて,これらのアルゴリズムを実装し,対応する安定性解析を,Lyapunov理論を介して提供した。最後に,数値シミュレーションの例は筆者らの提案アプローチの有効性を実証するために提示した。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能 , ニューロコンピュータ

, , , , ,

前のページに戻る