抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
著者らは強化学習を適用したロボットの行動獲得を試みてきた。これまでの研究対象は,芋虫型ロボットやヒトデ型ロボットであり,それらはロボットの動作を準静的に拘束し,状態遷移が決定論的に行なわせることによってマルコフ決定過程の性質が満たされる静的なタスク(マルコフ性)であった。本論文では,状態遷移が環境とロボットとの相互作用の不確定性の影響のために確率的になり,マルコフ決定過程の性質が満たされない動的なタスク(非マルコフ性)の行動獲得へと議論を発展させるため,ロボットの大車輪運動に着目した.多自由度開ループ制御機構のロボットによる大車輪運動は遠心力,コリオリ力,重力による非線形性をもつ。また手首に相当する第1関節が非駆動関節であり,非ホロノミック拘束となっているため,非ホロノミック拘束を有する劣駆動システムに分類される。本論文で用いたロボットの大車輪運動は,サンプリングの粗さから速度の正負が切り換わるときに起こる速度状態の不完全知覚問題,位置状態に腕部の角度のみを用いることによるロボットの姿勢の不完全知覚問題,アクチュエータが位置制御機能しか有せずトルク制御機能を有していないこと,およびベアリングの摩擦などに起因するさまざまな非マルコフ性に関連する動的なタスクの問題を,Q値の時間平均化と報酬を操作することにより克服した。運動開始からタスク達成までに,報酬としては2つのモードが存在し,始めは強制振動をするような動き,その後足先を上げるように学習することで実現を可能とした。獲得した行動形態を見ると3つの段階が存在し,第2,3段階で確率的な停滞ループを形成しているところがある。このループは静的なタスクでも見られるものであるが,動的なタスクの場合には,現在の状態と行動からつぎの状態が予測できないために,そのループは1本ではなく確率的な挙動を示す遷移ループとなる。そのようなループから抜け出るには特定の状態になる必要があるが,特定の状態となっても動的なタスクであるためにループから抜け出せるかどうかは確率的となった。そのため,大車輪運動を達成するまでの時間は一定とはならなかった。