最小絶対値反復法-価値関数近似へのロバストアプローチ

SUGIYAMA Masashi; SUGIYAMA Masashi; HACHIYA Hirotaka; KASHIMA Hisashi; MORIMURA Tetsuro

文献

J-GLOBAL ID：201002240063786970 整理番号：10A0967378

最小絶対値反復法-価値関数近似へのロバストアプローチ

Least Absolute Policy Iteration-A Robust Approach to Value Function Approximation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=10A0967378&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=10A0967378&from=J-GLOBAL&jstjournalNo=L1371A") }}

著者 (5件)： , , , ,
資料名：
巻： E93-D 号： 9 ページ： 2555-2565 発行年： 2010年09月01日
JST資料番号： L1371A ISSN： 0916-8532 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：英語 (EN)

最小二乗ポリシーはロボット工学において,その計算効率から有用な強化学習法である。しかしながら,それは,観測された報酬における異常値に敏感である傾向がある。この論文では,著者らはロバスト性と信頼性を高めるための絶対損失を使う別法を提案する。提案方法は,標準の最適化ソフトウェアで効率的に解ける線形計画問題として定式化されるので,ロバスト性と信頼性を獲得するために計算上の利点が犠牲にされない。著者らは,シミュレートされたロボット制御タスクにより,提案方法の有用性を示す。(翻訳著者抄録)

, , , , , , , , ,
,

ロボットの運動・制御

引用文献 (33件)：

[1] S. Amari, “Theory of adaptive pattern classifiers, ” IEEE Trans. Electronic Computers, vol.EC-16, no.3, pp.299-307, 1967.
[2] C.W. Anderson, P.M. Young, J.N. Buehner, M. R. Knight, H.A. Bush, and D.C. Hittle, “Robust reinforcement learning control using integral quadratic constraints for recurrent neural networks, ” IEEE Trans. Neural Netw., vol.18, no.4, pp.993-1002, 2007.
[3] P. Artzner, F. Delbaen, J.M. Eber, and D. Heath, “Coherent measures of risk, ” Mathematical Finance, vol.9, no.3, pp.203-228, 1999.
[4] P.D. Bertsekas and J. Tsitsiklis, Neuro-Dynamic Programming, Athena Scientific, NH, USA, 1996.
[5] S. Boyd and L. Vandenberghe, Convex Optimization, Cambridge University Press, Cambridge, 2004.

, , ,

前のページに戻る