admin 管理员组

文章数量: 1184232

论文名称:Hierarchical reinforcement learning: A comprehensive survey
论文发表期刊:ACM Computing Surveys
期刊影响因子:10.282(2022年)
论文作者: SHUBHAM PATERIA, Nanyang Technological University BUDHITAMA SUBAGDJA and AH-HWEE TAN, Singapore Management University CHAI QUEK, Nanyang Technological University
发表时间:2021年
当前谷歌学术引用量:32

文章目录

      • 摘要
      • 关键词
      • 1.Introduction
      • 2.Preliminaries
        • 2.1 Reinforcement Learning
        • 2.2 Hierarchical Reinforcement Learning
          • 2.2.1 Formal Definition of a Subtask
          • 2.2.2 Formalism of HRL Based on Semi-Markov Decision Process.
          • 2.2.3 Problem Definition of HRL
        • 2.3 Definitions of Common Terms and Concepts
      • 3.Approaches for hierarchical reinforcement learning
        • 3.1 Learning Hierarchical Policy (LHP)
          • 3.1.1 Feudal Hierarchy Approaches
          • 3.1.2 Policy Tree Approaches
        • 3.2 Learning Hierarchical Policy in Unification with Subtask Discovery (UNI)
          • 3.2.1 Unified Learning of Policy Tree
          • 3.2.2 Unified Learning of Feudal Hierarchy
        • 3.3 Independent Subtask Discovery (ISD)
          • 3.3.1 Discovery of Subgoals
          • 3.3.2 Discovery of Diverse Skills
        • 3.4 Transfer Learning with HRL (TransferHRL)
          • 3.4.1 Transfer + Subtask Policy Distillation
          • 3.4.2 Transfer + Agent-space Subtasks
          • 3.4.3 Transfer + Meta-learning of Subtasks
        • 3.5 Multi-agent Hierarchical Reinforcement Learning (MAHRL)
        • 3.6 Key Takeaways from the Survey of Approaches
      • 4 Open problems for future research
      • 5 Conclusion

摘要

分层强化学习 (HRL) 能够将具有挑战性的长期决策任务自主分解为更简单的子任务。在过去的几年中,HRL 研究的前景得到了深刻的发展,产生了丰富的方法。要以有组织的方式研究 HRL,需要对这片广阔的景观进行全面的概述。我们对各种 HRL 方法进行了调查,这些方法涉及使用 HRL 进行learning hierarchical policies, subtask discovery, transfer learning, and multi-agent learning所面临的挑战。该调查是根据一种新颖的方法分类法进行的。在调查的基础上,提出了一系列重要的开放性问题,以激励 HRL 的未来研究。此外,我们概述了一些用于评估 HRL 方法的合适任务领域以及 HRL 在补充材料中实际应用的一些有趣示例。

关键词

Hierarchical reinforcement learning, subtask discovery, skill discovery,hierarchical reinforcement learning survey, hierarchical reinforcement learning taxonomy

1.Introduction

人工智能的主要目标之一是开发能够通过规划最佳动作序列在环境中执行各种复杂任务的自主agent。强化学习 (RL) 是一种计算范式,用于学习一种策略,该策略在任务环境的各种状态下采取最佳行动,以最大化agent收到的累积奖励。为了学习最优策略,agent通过执行状态-动作-下一个状态(state-action-next state)的各种序列来探索与任务相关的状态和动作空间。这种序列的平均长度称为任务范围,如果视野很长,而任务涉及大的状态和动作空间,那么探索空间也会变大。这导致标准 RL 算法在没有复杂探索技术的情况下在此类长期任务上表现不佳。
Hierarchical Reinforcement Learning 分层强化学习 (HRL) 将长期强化学习任务分解为子问题或子任务的层次结构,以便更高级别的策略通过选择最佳子任务作为更高级别的操作来学习执行任务。子任务本身可能是一个强化学习问题,需要通过较低级别的策略学习来解决它。这种策略层次共同决定了agent的行为。Task decomposition effectively reduces the original task’s long horizon into a shorter horizon in terms of the sequences of subtasks. This is because each subtask is a higher-level action that persists for a longer timescale compared to a lower-level action, a property that is often referred to as temporal abstraction.(根据子任务的序列,任务分解有效地将原始任务的长视域缩短为更短的视域。这是因为每个子任务都是一个较高级别的action,与较低级别的action相比,它会持续更长的时间,这种属性通常被称为时间抽象)。
Temporal abstraction can also enable efficient credit assignment over longer timescales.At the same time, a subtask may itself be easier to learn and the learned subtasks lead to more structured exploration over the course of training of the HRL agent.(时间抽象还可以在更长的时间范围内实现有效的信用分配。同时,子任务本身可能更容易学习,并且学习的子任务导致在 HRL agent的训练过程中进行更结构化的探索)。
这些方面使 HRL 成为一种有前途的方法,可以将强化学习扩展到long-
horizon任务。HRL 算法已被证明在几个长期问题中优于标准RL,例如连续控制任务、long-horizon类型的游戏、机器人操纵等。不同的实证研究发现,HRL 的性能优势主要是由于使用subtasks/subgoals(子任务/子目标)改进(exploration)探索。
HRL 研究在过去 30 年中取得了长足的进步,产生了大量的方法来解决各种挑战,例如 learning the policies in a hierarchy, autonomous discovery of subtasks, transfer learning, and multi-agent learning (学习层次结构中的策略、子任务的自主发现、迁移学习和使用 HRL 的多智能体学习)。这导致在以有组织的方式理解该领域的进展方面存在重大困难。因此,有必要进行全面的调查来收集和组织重要的 HRL 方法,并为其分类提供一般分类法。
本次survey与以往survey有何不同?
Barto 等人对截至 2003 年的 HRL 进展进行了调查。该调查包括对经典方法的重要概述,主要是 MAXQ、Options 和 HAMs 。自那次调查以来,HRL 领域发生了重大发展,例如使用subtask discovery using graph analysis, variational inference, autoencoding, unified HRL, subtask discovery in multi-agent HRL, transfer learning with HRL(图分析的子任务发现、变分推理、自动编码、统一 HRL、多智能体 HRL 中的子任务发现、使用 HRL 的迁移学习)我们的调查主要与 Barto 等人的调查不同之处从某种意义上说,我们回顾了他们调查后出现的新 HRL 方法,以及它们所涵盖的经典方法。
Al-Emran等人从 HRL 的实际应用角度进行了一项调查。但是,它不包括一些不适用于所选应用的重要方法,例如最近的 unified HRL techniques, transfer learning with HRL, multi-agent HRL(统一 HRL 技术、使用 HRL 的迁移学习、多智能体 HRL 等)。相比之下,我们对 HRL 方法进行了广泛的调查,并提供了一个与应用程序无关的通用分类法。
Mendonca 等人的最新调查详细回顾了基于图的子任务发现方法。由于范围有限,他们的调查深入到了基于图的子任务发现,但排除了 HRL 研究的其他重要方面,例如learning a hierarchy of policies, subtask discovery using variational inference,unified HRL, transfer learning with HRL, multi-agent HRL(学习策略层次结构的技术、使用变分推理的子任务发现、统一 HRL、迁移学习HRL、多代理 HRL 等)。然而,我们回顾了所有这些方法以及基于图的子任务发现,本着为 HRL 研究提供更广阔视野的精神。
本文的主要贡献:本次调查的目的是彻底回顾有关 HRL 的文献,并提供迄今为止开发的方法的全景图。主要贡献如下:
(1)我们对迄今为止在 HRL 领域所做的工作进行了全面调查。该调查包括(learning hierarchies of policies, independent subtask discovery, unified HRL, multi-task/transfer learning with HRL, and multi-agent HRL)学习策略层次结构、独立子任务发现、统一 HRL、使用 HRL 的多任务/迁移学习和多代理 HRL 的方法。
(2)我们提供了一种新的分类法来组织 HRL 方法沿着重要的特征维度,例如single-agent vs. multi-agent, single-task vs. multi-task, and without subtask discovery vs. with subtask discovery.(单代理与多代理、单任务与多任务,以及没有子任务发现与子任务发现)
(3)我们确定了一组重要的开放问题,为未来有关 HRL 的可扩展性、效率和理论稳健性的研究提供方向。

本文的其余部分组织如下:在第 2 节中,我们回顾了强化学习、任务分解和 HRL 的一般概念。第 3 节介绍了各种 HRL 方法的分类和调查,以及它们解决的广泛挑战。第 4 节讨论了有关 HRL 未来研究的重要开放问题。我们在第 5 节结束调查。

2.Preliminaries

2.1 Reinforcement Learning

强化学习的基础概念这里不做介绍了

2.2 Hierarchical Reinforcement Learning

RL 智能体的目标是寻找一种策略,该策略使智能体在遵循该策略时可以采取的各种可能轨迹上的平均累积奖励最大化。在探索状态和动作空间以学习最佳策略时,代理采用各种轨迹,其预期长度为任务范围。当状态和动作空间很大且任务范围很长时,使用标准 RL 方法进行探索变得具有挑战性。
HRL 提供了一种机制来执行具有挑战性的任务,方法是使用通过强化学习学习的策略层次结构将其分解为更简单的子任务。在这样的层次结构中,最高级别的策略通常选择主任务的子任务作为其动作。使用在主任务中获得的奖励,该策略被训练为根据其子任务的顺序执行完成主任务。在层次结构中的较低级别,较高级别策略选择子任务本身就是一个强化学习问题。最低级别的策略选择以下称为primitive 的基本action。


在此图中,HRL 代理分解并执行“去夏威夷”(GTH)的长期任务。HRL 代理由策略层次结构组成。任务策略 πGTH 将原始任务 GTH 分解为一系列最高级别的子任务“订票”(BT)、“前往机场”(GTA)等。任务策略最初选择 BT。然后,BT 被执行多个时间步长,直到它在时间 T3 终止。在此期间,子任务 BT 的策略,即 πBT 本身会依次选择不同的较短子任务。这些是“打开预订网站”(OBW)、“输入航班信息”(EFI)等。 BT 在 T3 终止后,任务策略选择 GTA,它本身选择一个较短的子任务“去出租车站”(GTS)。在每个时间步长中,一个原始动作 a 由最低级别的子任务策略选择,例如,由 πOBW、πEFI、πGTS 等。

2.2.1 Formal Definition of a Subtask

首先,我们将主要的长期任务表示为Γ,将任务策略表示为 πΓ。任务策略位于层次结构的顶部,例如图 1 中的 πGTH。子任务表示为 ω,它使用如下描述的组件定义:

  • πω,即(policy of the subtask)子任务的策略。它将环境状态映射到原始动作或 ω 的子任务。
  • The objective components:
    rω,这是用于训练 πω 的子任务奖励。这通常不同于与主任务相关的奖励。
    gω,它是与 ω 相关的一个子目标或一组子目标。子目标可能是状态 s ∈ S 本身 ,状态的抽象形式或者是a learned embedding,奖励 rω 可以根据子目标来定义。
  • The execution components:
    Iω,是ω的起始条件,它可以被定义为一组状态。
    βω,是ω的终止条件。它可以定义为一组状态,如果 ω 正在执行,则应在这些状态中终止
2.2.2 Formalism of HRL Based on Semi-Markov Decision Process.

HRL 是在半马尔可夫决策过程 (SMDP)理论的基础上形式化的。 SMDP 是一个类似于 MDP的随机控制过程,但与 MDP 不同的是,它还涉及在选择动作后执行动作的时间概念。在 HRL 的中,具有时间概念的动作是(subtasks)子任务。从状态 st ∈ S 开始,假设代理选择子任务 ωt ∈ Ω,其中 Ω 是子任务集(或子任务空间)。然后,SMDP的转移函数被定义为联合分布

cωt 表示从状态st执行 ωt 的(the number of timesteps)时间步数, cωt实际上由终止条件 βωt 确定,它是第 2.2.1 节中定义的执行组件之一。

从状态 st 开始执

本文标签: Reinforcement Hierarchical learning Survey Comprehensive