分层强化学习?分层强化学习,是一种处理时间序列问题的高级方法。通过理解时间序列的一般表示,可以更有效地解决强化学习问题。从神经科学角度出发,时间序列表示可以分为五个层次:第一层关注时间信息;第二层对序列进行分块处理;第三层抽取块之间的顺序信息;第四层识别序列中的模式或规律;第五层抽取生成语法的规则。那么,分层强化学习?一起来了解一下吧。
分层强化学习的初衷在于解决复杂问题的状态与动作空间过大导致的学习效率低下问题。直观地理解,复杂问题可类比于学习一道菜,通过分解为一系列简单步骤(洗菜、切菜、炒菜等)来简化学习过程。然而,实际应用中,分层强化学习的动机与这一直观理解有所出入,其主要解决的是稀疏奖励(sparse reward)问题,即在环境中难以获得具有正奖励的样本时,智能体的学习面临困难。分层策略通过将策略分为不同层级的子策略,每个子策略在学习过程中通过上一层级传递来的奖励,以提高样本的利用效率。
分层强化学习主要分为基于option与基于goal两大类。基于option的分层强化学习中,上层控制器在较长的时间跨度上选择下层策略的option,而下层控制器在较短的时间跨度上根据所选option选择动作。基于goal的分层强化学习则在上层控制器选择目标(goal)的基础上,下层控制器根据目标及策略选择动作。定义goal成为这类方法的关键问题之一。
基于option的分层强化学习典型代表包括Option-Critic、H-DQN等,这些算法通过上层控制器与下层控制器的协同工作,实现对复杂任务的分解与学习。基于goal的分层强化学习则通过定义不同层级的目标,引导智能体的学习过程,如UVFA、HER、HIRO等算法。
分层强化学习,是一种处理时间序列问题的高级方法。通过理解时间序列的一般表示,可以更有效地解决强化学习问题。从神经科学角度出发,时间序列表示可以分为五个层次:第一层关注时间信息;第二层对序列进行分块处理;第三层抽取块之间的顺序信息;第四层识别序列中的模式或规律;第五层抽取生成语法的规则。这些层次的表示有助于构建对时间序列的深度理解。强化学习中,分层强化学习引入了结构化的语法表示,简化了动作学习,提高了效率。类比人类学习,分层方法也适用于技术发展,通过强化学习可生成新技术。抽象表示的重要性在于降低维数灾难,使学习过程简化,且得到的策略具有鲁棒性。
分层强化学习更新方法有高层策略更新、低层策略更新、传递信息、更新参数、重复以上步骤。
1、高层策略更新:在每个时间步骤,高层策略接收当前状态作为输入,并输出一个抽象的、高级别的行动指导,如目标位置等。这个指导会被传递给低层策略执行。通常使用梯度下降等优化算法来最大化累积奖励,并且将其更新的方向传递给低层策略。
2、低层策略更新:低层策略负责执行具体的、低级别的动作,并通过与环境的交互来更新自己的价值函数。通常使用类似于标准强化学习的方式来更新其价值函数,例如使用Q-learning或SARSA等算法。
3、传递信息:高层策略的指导会传递给低层策略执行,并且通过梯度下降更新方向传递给低层策略。
4、更新参数:在每个时间步骤,所有层次的策略都会根据当前的状态和动作更新其内部参数。
5、重复以上步骤:以上几个步骤在每个时间步骤重复进行,直到任务完成或者达到最大的时间步骤。
分层强化学习是一种有效应对稀疏奖励和复杂问题的策略,它将复杂问题分解为多个子问题,通过目标导向(goal-reach)和多级控制(multi-level control)来解决。主要方法有Universal Value Function Approximators (UVFA)、Hierarchical Deep Q-Network (HDQN)、Functional Skills (FuNs)、Hindsight Experience Replay (HER)、Hierarchical Actor-Critic (HAC)、HIerarchical Reinforcement learning with Off-policy correction (HIRO)等。
UVFA通过引入目标作为输入,学习状态和目标的隐变量映射,解决目标选取难题,但目标选择仍然是挑战。HDQN针对特定环境Montezuma's Revenge,通过划分meta controller和controller,分别负责目标设定和执行,目标选取是通过预定义的游戏对象图像。
FuNs则通过嵌入、变换和循环神经网络处理高维输入,Manager设定目标,Worker执行,强化Manager的训练目标,但目标定义依赖人工选择。
分层强化学习中,HIRO: HIerarchical Reinforcement learning with Off-policy correction,为NIPS 2018年发表的先进方法。此方法采用两层结构,上层策略提出目标,底层策略执行。目标提出与执行分层进行,顶层策略每隔一定时间步提出新目标,底层策略根据目标与当前状态产生动作。
底层策略获得与目标接近程度成正比的内部激励,目标转移函数在每个时间步获取下一个目标,顶层策略每c个时间步更新一次。文章重点在于off-policy correction,解决HRL方法中样本利用效率问题。
在off-policy中,底层策略不断变化,导致早期采样在后期对训练无效。为解决此问题,HIRO将旧样例目标替换,使用新的高层动作重新标记,使得底层策略执行旧策略动作,实现相同状态转移。通过极大似然估计,计算出最佳目标,随机选择候选目标中概率最大的目标进行重新标记。
HIRO在复杂环境中,如Ant-Gather和Ant-Maze等,相较于FeUdal Network、SNN4HRL和VIME等方法,表现更优。实验验证了off-policy correction在HRL中的关键作用。
以上就是分层强化学习的全部内容,总的来说,分层强化学习不仅是一场智能策略的探索,更是一种理解和利用时间序列数据的强大工具,它在简化复杂问题的同时,展示了人工智能如何在模仿和学习中不断进化。让我们期待在未来的应用中,分层强化学习如何在众多领域中大放异彩。内容来源于互联网,信息真伪需自行辨别。如有侵权请联系删除。