Induction and Exploitation of Subgoal Automata for Reinforcement Learning简介#
- 通过交织进行子目标自动机学习与强化学习
- 让agent在与环境交互中自动发现任务的子目标结构,并利用该结构加速策略学习
- 从交互轨迹中归纳子目标自动机,再用自动机指导强化学习,同时用新交互修正自动机
子目标概念机 Subgoal Automata#
子目标自动机是一种有限状态自动机,用于编码任务的子目标结构,其定义为tuple A=< $U,O,\delta_\phi,u_0,u_A,u_R$ >,关键组件包括