多腕帯域における構造の発見【JST・京大機械翻訳】

Schulz Eric; Franklin Nicholas T.; Gershman Samuel J.

文献

J-GLOBAL ID：202002274730610945 整理番号：20A1198477

多腕帯域における構造の発見【JST・京大機械翻訳】

Finding structure in multi-armed bandits

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A1198477&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1198477&from=J-GLOBAL&jstjournalNo=E0848A") }}

著者 (3件)： , ,
資料名：
巻： 119 ページ： Null 発行年： 2020年
JST資料番号： E0848A ISSN： 0010-0285 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

どのように人間が報酬を探索するか?この問題は,探索と開発をトレードオフするための参加者を必要とする,マルチアーム化された銀行タスクを用いて一般的に研究されている。標準的なマルチアームバンドは,各オプションが独立した報酬分布を持つと仮定している。しかし,実際の世界のオプションがしばしば基礎となる構造を共有するので,オプションに関する学習は現実的ではない。著者らは,構造化されたbanditタスクのクラスを研究し,それにより,一般化ガイド探索の探索を行った。構造化されたマルチアーム化されたバンディットにおいて,オプションは潜在的関数によって決定される相関構造を有する。著者らは,報酬がオプションの空間位置の線形関数である帯域に焦点を合わせた。5つの実験を通して,参加者がそれらの探索を誘導するために機能的構造を利用し,また,潜在的機能を同定する際に次第に速くなる,ラウンドを通して学習から学習への影響を示す証拠を見出した。著者らの実験はいくつかの発見的説明を除外して,同じ発見が非線形関数で得られることを示した。学習と意思決定のいくつかのモデルを比較して,著者らの作業における人間行動の最良モデルが3つの計算機構を結合することを見出した。(1)関数学習,(2)ラウンドにわたる報酬分布のクラスタリング,(3)不確実性ガイド探索。著者らの結果は,人間の強化学習が効率を改善するために,洗練された方法で潜在的構造を利用できることを示唆する。Copyright 2020 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , ,
, , 【Automatic Indexing@JST】

著者キーワード (10件)： , , , , , , , , ,

人工知能

前のページに戻る