强化学习各种符号含义解释

s,{s}' :状态

a : 动作

r : 奖励

R : 奖励函数

S : 非终结状态

S^{+} : 全部状态,包括终结状态

A : 动作集合

ℛ : 奖励集合

\boldsymbol{P} : 转移矩阵

t : 离散时间步

T : 回合内最终时间步

S_t : 时间t的状态

A_t : 时间t动作

R_t : 时间t的奖励,通常为随机量,且由A_tS_t决定

G_t : 回报

G_t^{(n)} : n步回报

G_t^{\lambda} : \lambda 折扣回报

\pi : 策略

\pi(s) : 根据确定性策略\pi, 状态s时所采取的动作

\pi(a|s) : 根据随机性策略\pi, 在状态s时执行动作a的概率

p({s}',r|s,a) : 根据状态s和动作a,使得状态转移成{s}'且获得奖励r的概率

p({s}'|s,a) : 根据转态s和动作a,使得状态转移成{s}'的概率

v_{\pi}(s) : 根据策略\pi,状态s的价值(回报期望)

v_{\star}(s) : 根据最优策略,状态s的价值

q_{\pi}(s,a) : 动作价值函数,根据策略\pi,在状态s时执行动作a的价值

q_{\star}(s,a) : 根据最优策略,在状态s时执行动作a的价值

V,V_t : 状态价值函数的估计

Q,Q_t : 动作价值函数的估计

\tau : \tau = (S_0, A_0,R_0,S_1,A_1,R_1,...) 状态,动作,奖励的轨迹

\gamma : \gamma \in [0,1] , 奖励折扣因子

\epsilon : 根据\epsilon-贪婪策略,执行随机动作的概率

\alpha, \beta : 步长

\lambda : 资格迹的衰减速率

R(\tau) 是轨迹\tau\gamma-折扣化回报,R(\tau)=\sum_{t=0}^{\infty}\gamma^{t}R_t

p(\tau) 是轨迹的概率:

        p(\tau) = \rho_0(S_0)\prod_{t=0}^{T-1}p(S_{t+1}|S_t),对于\rho_0(S_0)是起始状态分布

        p(\tau|\pi)=\rho_0(S_0)\prod_{t=0}^{T-1}p(S_{t+1}|S_t,A_t)\pi(A_t|S_t),\rho_0(S_0)是起始状态分布

J(\pi)是策略\pi的期望回报,J(\pi)=\int_{\tau}p(\tau|\pi)R(\tau)=\mathbb{E}_{\tau\sim\pi}[R(\tau)]: 对于这个公式的理解为策略\pi可以产生很多轨迹\tau,产生每个轨迹的概率为p(\tau|\pi),而每个轨迹\tau的奖励为R(\tau),所以总的策略\pi可以获得的奖励的期望就是所有轨迹的概率乘与该轨迹的奖励的积分。对于右边期望描述的就是对于服从策略\pi的轨迹\tau,求轨迹的奖励值R(\tau)的期望。

\pi^{\star}是最优策略,最优策略就是能够获得最大的策略期望的策略,即为\pi^{\star}=arg max_{\pi}J(\pi)

v_{\pi}(s)是状态s在策略\pi下的价值,也就是这个状态能够获得的期望回报。

v_{\star}(s)是状态s在最优策略\pi下的价值,也就是这个状态能够在最优策略下获得的期望回报,最终都转化为了奖励的计算。

q_{\pi}(s,a)是状态s在策略\pi下执行动作a的价值(期望回报)

q_{\star}(s,a)是状态s在最优策略下执行动作a的价值(期望回报)

V(s)是对MRP(Markov Reward Process)中从状态s开始的状态价值的估计

V^{\pi}(s)是对MDP(Markov Decision Process)中在线状态价值函数的估计,给定策略\pi,有期望回报:

V^{\pi}(s)\approx v_{\pi}(s)=\mathbb{E}_{\tau\sim\pi}[R(\tau)|S_0=s]

其中MP,MRP,MDP参考:MP、MRP、MDP(第二节) - 知乎 (zhihu.com)

Q^{\pi}(s,a)是对MDP下在线动作价值函数的估计,给定策略 \pi,有期望回报:

 Q^{\pi}(s,a)\approx q_{\pi}(s,a)=\mathbb{E}_{\tau\sim\pi}[R(\tau)|S_0=s,A_0=a]

V^{\star}(s)是对MDP下最优动作价值函数的估计,根据最优策略,有期望回报:

V^{\star}(s)\approx v_{\star}(s) = max_{\pi}\mathbb{E}_{\tau\sim\pi}[R(\tau)|S_0=s]

Q^{\star}(s,a)是对MDP下最优动作价值函数的估计,根据最优策略,有期望回报:

Q^{\star}(s,a)\approx q_{\star}(s,a) = max_{\pi}\mathbb{E}_{\tau \sim\pi}[R(\tau)|S_0=s,A_0=a]

A^{\pi}(s,a)是对状态s和动作a的优势估计函数:

A^{\pi}(s,a)=Q^{\pi}(s,a) - V^{\pi}(s) 

 在线状态价值函数v_{\pi}(s)和在线动作价值函数q_{\pi}(s,a)的关系:

v_{\pi}(s)=\mathbb{E}_{a\sim\pi}[q_{\pi}(s,a)]

如上图所示:状态s对应多个动作a1,a2,执行一个动作之后,又可能转移到多个状态中去, 所以v_{\pi}(s)的值就是在状态s之下能够采取的所有动作的动作价值函数的期望,即为

v_{\pi}(s)=\mathbb{E}_{a\sim\pi}[q_{\pi}(s,a)]

另一种写法:

 v_{\pi}(s)=\sum_{a \in A}\pi(a|s)q_{\pi}(s,a)

这里写的是v_{\pi}(s)q_{\pi}(s,a)之间的关系,同理另外一种转换关系是,执行一个动作之后得到的及时奖励值+下一个状态的状态价值函数的折扣,即为

v_{\pi}(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma\sum_{s'\in S}P_{ss'}^av_{\pi}(s'))

P_{ss'}^a是在状态s执行动作a转移到s'的概率,这样就把v_{\pi}(s)v_{\pi}(s')关联起来了。另一种写法如下:

v_{\pi}(s)=\mathbb{E}_{a\sim \pi(\cdot |s),s'\sim p(\cdot |s,a)}[R(s,a)+\gamma v_{\pi}(s')]

最优状态价值函数v_{\star}(s)和最优动作价值函数q_{\star}(s,a)的关系是:

v_{\star}(s)=max_{a}q_{\star}(s,a)

上面的公式很好理解,在最优策略下,给一个状态s,这个策略肯定能够选到最好的动作去执行,那么当前状态的价值函数就不是去求所有动作价值函数的期望了,而是就等于动作价值函数最大的那个值。

a_{\star}(s)是在最优策略下,状态s执行的最优动作

a_{\star}(s)=argmax_{a}q_{\star}(s,a)

 在线动作价值函数的贝尔曼方程:

q_{\pi}(s,a)=\mathbb{E}_{s' \sim p(\cdot |s,a)}[R(s,a)+\gamma\mathbb{E}_{a' \sim \pi(\cdot|s')}[q_{\pi}(s',a')]]

另外一种写法是:

q_{\pi}(s,a)=R_s^a+\gamma\sum_{s' \in S}p_{ss'}^{a}\sum_{a' \in A}\pi(a'|s')q_{\pi}(s',a') 

上面是 q_{\pi}(s,a)q_{\pi}(s',a')的关系,下面是q_{\pi}(s,a)v_{\pi}(s')的关系:

q_{\pi}(s,a)=R_s^a+\gamma\sum_{s' \in S}P_{ss'}^av_{\pi}(s')

另外一种写法是:

q_{\pi}(s,a)=R_s^a+\gamma\mathbb{E}_{s' \sim p(\cdot|s,a)}[v_{\pi}(s')] 

 最优状态价值函数的贝尔曼方程:

v_{\star}(s)=max_a \mathbb{E}_{s' \sim p(\cdot | s,a)}[R(s,a)+\gamma v_{\star}(s')]

 另外一种写法是:

v_{\star}(s)=max_aR_s^a+\gamma \sum_{s' \in S}P_{ss'}^av_{\star}(s')

 最优动作价值函数的贝尔曼方程:

q_{\star}(s,a)=\mathbb{E}_{s' \sim p(\cdot |s,a)}[R(s,a)+\gamma max_{a'}q_{\star}(s',a')]

另外一种写法是:

q_{\star}(s,a)=R_s^a+\gamma \sum_{s' \in S}P_{ss'}^amax_{a'}q_{\star}(s',a') 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/191113.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10-19 HttpServletResponse

相应的对象 web开发模型:基于请求与相应的模型 一问一答的模型 Response对象:响应对象,封装服务器给客户端的相关的信息 顶级接口: ServletResponse 父接口:HttpServletResponse response对象的功能分为以下四种:(都是服务器干的事注意) 设置响应头信息; 发送状态码…

软件工程师参加技术峰会,带来的价值,你想象不到!

参加技术大会是软件开发人员了解行业最新技术和未来发展趋势的重要途径。 在技术大会上,来自世界各地的专家、学者和企业代表会分享他们的最新研究成果、技术创新和趋势分析。这对于软件开发人员来说,是一个宝贵的学习机会,可以帮助他们拓宽…

动手学深度学习——循环神经网络(原理解释与代码详解)

文章目录 一、循环神经网络1. 无隐状态的神经网络2. 有隐状态的循环神经网络3. 基于循环神经网络的字符级语言模型4. 困惑度5. 小结 二、循环神经网络的从零开始实现1. 独热编码2. 初始化模型参数3. 循环神经网络模型4. 预测5. 梯度裁剪6. 训练 一、循环神经网络 n元语法模型&…

竞赛 题目:基于深度学习卷积神经网络的花卉识别 - 深度学习 机器视觉

文章目录 0 前言1 项目背景2 花卉识别的基本原理3 算法实现3.1 预处理3.2 特征提取和选择3.3 分类器设计和决策3.4 卷积神经网络基本原理 4 算法实现4.1 花卉图像数据4.2 模块组成 5 项目执行结果6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基…

记录一些涉及到界的题

文章目录 coppersmith的一些相关知识题1 [N1CTF 2023] e2Wrmup题2 [ACTF 2023] midRSA题3 [qsnctf 2023]浅记一下 coppersmith的一些相关知识 上界 X c e i l ( 1 2 ∗ N β 2 d − ϵ ) X ceil(\frac{1}{2} * N^{\frac{\beta^2}{d} - \epsilon}) Xceil(21​∗Ndβ2​−ϵ) …

sqli-labs关卡19(基于http头部报错盲注)通关思路

文章目录 前言一、回顾上一关知识点二、靶场第十九关通关思路1、判断注入点2、爆数据库名3、爆数据库表4、爆数据库列5、爆数据库关键信息 总结 前言 此文章只用于学习和反思巩固sql注入知识,禁止用于做非法攻击。注意靶场是可以练习的平台,不能随意去尚…

【MySQL】索引与事务

作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文录入于《MySQL》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力)打造&a…

深入解析:开发抖音酒店景区小程序的技术

抖音作为社交媒体平台的佼佼者,其独特的风格和用户基础吸引了无数开发者的目光。在本文中,我们将深入解析开发抖音酒店景区小程序的关键技术,为开发者提供实用指南。 1.抖音风格设计 在开发酒店景区小程序时,首先要注重界面设计…

Linux:firewalled服务常规操作汇总

一、firewalled防火墙工作原理 firewalled的内部结构,可以简单的看做下图,有两个集合,一个集合管理关闭的端口,另一个集合管理放开的端口。 二、常用操作 1、开启和关闭防火墙 临时性配置: systemctl [start | stop …

k8s上Pod生命周期、重启策略、容器探测简介

目录 一.Pod的创建过程 二.Pod的终止过程 三.Pod的重启策略(restartPolicy) 1.Always 2.OnFailture 3.Never 4.示例 四.Pod生命周期内的5种状态(相位) 1.Pending 2.Running 3.Succeeded 4.Failed 5.Unknown 五.初始…

栈与队列:用栈实现队列

目录 题目: 栈与队列的数据模型对比: 思路分析🎇: 代码分析: 一、定义队列 二、初始化队列 三、入队 四、出队⭐ 代码解析: 五、获取队头元素 六、查看队列是否为空 七、销毁队列 完整代码 …

【C++】类与对象 II 【深入浅出 万字详解】

类与对象 II 一、类的6个默认成员函数二、构造函数前言:构造函数产生的由来 及引入C语言中关于初始化会出现的问题总结:(一)构造函数的 概念(二)构造函数的 特性★ 构造函数 和 函数声明 的区分 三、析构函…