基本大概框架 强化学习的主要角色是 智能体 (agent)和 环境,环境是智能体存在和互动的世界。智能体根据当前的环境做出action,action影响环境。然后智能体根据新的环境再进行action。 基础用语 状态(state, s):当前环境的一个客观描述观察(observation, o):当前环境的一个描述,可能会漏掉部分信息策略(policy):决定下一步执行何种行动的规则回报(reward):某种状态进行某种动作产生的真值轨迹(trajectory):包含状态动作回报的一个链返回值(return):一个轨迹的所有回报的总和