学习深度强化学习---第2部分----RL动态规划相关算法

文章目录

    • 2.1节 动态规划简介
    • 2.2节 值函数与贝尔曼方程
    • 2.3节 策略评估
    • 2.4节 策略改进
    • 2.5节 最优值函数与最优策略
    • 2.6节 值迭代与策略迭代
    • 2.7节 动态规划求解最优策略

本部分视频所在地址:深度强化学习的理论与实践

2.1节 动态规划简介

态规划有两种思路:分治法和动态规划,目的是求解一个大问题。
分治法
分治法是将一个大问题分解成多个相互独立的子问题。然后再逐个解决每个子问题,最后将多个问题的结算结果c1、c2、…、cn进行总结,最后得到总问题的解。
subp1:表示将大问题分成的子问题
这些子问题的特点是这些子问题之间是相互独立的,也就是这些子问题是可以独立求解的。
动态规划
这个方法是将一个总问题进行逐步求解,先求解subp1,再求解subp2,…,最后求解subpn问题,
子问题的特点是嵌套的,递归的求解,即想要解决子问题subp3,必须先要求解子问题subp2,想要解决子问题subp2,必须先要求解子问题subp1。每个子问题的结构是一样的,即如果一个子问题是加法问题,则所有问题都是加法问题。
在这里插入图片描述
找到的其结构特征,就是去找到嵌套的结构特征
在这里插入图片描述
动态规划解决问题的案例

在这里插入图片描述

2.2节 值函数与贝尔曼方程

在这里插入图片描述
根据马尔科夫链定义一些东西:
即时奖励(通常称为奖励,reward)
累计奖励Gt: 表示状态为St时执行动作At之后累积的奖励。累计奖励中每一个时刻对应的即时奖励不能够同等看待。原因是例如在下象棋时第一步走马和棋局最后几步走马同样是走马的动作,但是走马的动作重要性是不同的。所得到的即时奖励是不同的。在棋局最后的终止状态附近的奖励应该被认为是更重要的。
累积折扣奖励(通常称回报,return): 智能体在t时刻的累积奖励会这么认为,离该时刻越近的即时奖励重要性应该越大,离该时刻越远的即时奖励重要性越小。举例:在终止状态T时刻,RT的重要性要远超于R1的重要性,其根本原因是动作AT-1的重要性要远超于动作A0的重要性。
在这里插入图片描述
延时越长时RT,对Gt的影响越小: 延时越长时RT,即T越大,参数γ经过T指数后参数变得很小,因此对Gt的影响越小。
强化学习的目的或目标: 寻找到一个能够使累积折扣奖励Gt最大的最优策略。如果该策略可以使得每一个时刻的累积折扣奖励都最大,这个策略是最优的。
在这里插入图片描述
有了累积折扣奖励函数之后,进一步定义两个值函数:状态值函数、动作值函数。
在这里插入图片描述
上面的Rt+1应该写成Rt+k
在这里插入图片描述
从上面的式子可以看出来,对于每个状态和每一个动作都会对应一个动作值,对于离散的状态空间和动作空间来讲那么动作值的个数应该是有限的,此时将会使用一个表来表示这个Q,之后会学习一种基于表的强化学习方法。
‘状态值函数和动作值函数之间是可以相互转换的。’
在这里插入图片描述
上面是假设s的下一个状态为s'
详细解释与推导:
在这里插入图片描述
动态规划的核心:贝尔曼方程。下面的两个方程认真一点都能写出来,需要注意的是在
1)状态值函数表达的贝尔曼方程中的r是在s状态下执行动作a之后得到的奖励r,在得到的这个方程的时候是这么简写的。
2)写动作值函数的贝尔曼方程时第2个Q函数中的s和a都是下一时刻的状态和下一时刻的动作。因此动作值函数表达的贝尔曼方程中有4个变量:当前时刻状态s,当前时刻的动作a,下一时刻的状态s',下一时刻的动作a',比较复杂,而状态值函数表达的贝尔曼方程中只有2个变量:当前状态s下一时刻状态s',形式较为简单。因此实际中使用状态值函数更多。
3)两种贝尔曼方程中的r是基于三元函数的。即r=r(s,a,s'),之前我们还定义过R=R(s,a),此处不是二元的。为什么是3元呢?:因为在方程里面求和的时候,求和符号下面的变量已知了,就代表下一时刻s’已经知道了,那r就采用三元的定义形式了。不过也可以写成二元的奖励函数,因此有了下面的基于二元奖励函数的贝尔曼方程。
4)三元价值函数和二元值函数的关系
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
贝尔曼方程与动态规划的关系:贝尔曼是动态规划的发明人,s状态下的状态值函数可以使用下一时刻状态s’的状态值函数表示出来,也是动态规划的原理。

2.3节 策略评估

智能体思考在当前环境下要做出什么动作的过程就叫策略。
在这里插入图片描述
在这里插入图片描述
所有的终止状态的状态值函数都是0
下图中的状态转移概率在上图中已经展示了一部分,比较好写。使用的策略是平均策略,也即时在不管在哪个状态下,采取任意一个动作的概率均为0.5,也因为是每个状态下可采取的动作只有两个,定义策略时采用平均策略较好。
在这里插入图片描述
下图中基于状态值函数的贝尔曼方程中的4个方程就严格按照方程写是比较好写出来的。解出来的结果见下图
在这里插入图片描述
在V4的时候稍微麻烦一点,部分计算如下图
在这里插入图片描述
需要注意的一点:
联立的这个4元方程组一定是有解的,原因是:显然可以看出第1个方程中V2可以使用V1表示,第2个方程中V3可以使用V2表示,第3个方程中V4可以使用V3表示,而第4个方程中可以将所有变量均使用V1去表示,因此这个方程组可以合并成一个关于V1的方程,则必有解。我认为其他的场景下使用动态规划模型建模的强化学习方法使用方程组法去解则其解也类似如此唯一。
如果在秩的角度来解释:每个方程都是根据在不同状态下写出来的,每个状态是独立的,因此这几个方程是独立的,是不相关的,因此方程组的秩是满秩的,因此有唯一解。
当方程组很大的时候采用高斯消元法已经不够用了,此时使用迭代法来求解一个方程组。即先设置一个初值,经过贝尔曼方程的逐次计算得到一个迭代序列,经过多次迭代就会得到一个最终的近似解。迭代法之后用的更多,优点是速度快、方法简单,缺点是得到的解是近似解,不是精确解。
在这里插入图片描述
假如有一个新的策略π’,根据这个策略算出来一系列的状态值,这些状态值都要大于原来的策略π算出来的状态值,那么这个新策略π’就要比原来的策略π要好。具体为什么是这样,暂时不太清楚,存疑后解。
在这里插入图片描述

2.4节 策略改进

根据下面的定义可以得出结论:找最优的策略的就是去找最大的状态值函数。
在这里插入图片描述
π’(s)表示根据π’策略从状态s开始下一步执行的动作
策略改进定理:
在这里插入图片描述
证明:
在这里插入图片描述
上面证明的一个说明:在V的时候,下标是π或π’似乎无关紧要,不用纠结,当然认真抠细节的话,我觉着应该是薛定谔的V
在这里插入图片描述
说明:策略改进定理是策略得到改进的充分条件

满足(2-14)的最简单的策略就是贪婪策略
简单解释为:选择在状态s时使得动作值函数最大的动作作为策略。
贪心策略一定是满足策略改进定理中的(2-14)式的。红色的公式是用动作值函数来表示状态值函数的公式。从该公式中可以看出,状态值函数是动作值函数的期望值,而π’(s)如果是选择在状态s时使得动作值函数最大的动作,那么Qπ(s,π’(s))则是最大的动作值函数,必大于等于动作值函数的期望值,也即是必大于等于状态值函数,因此满足(2-14)式,故该策略可有效改进。
在这里插入图片描述
由下图Qπ(s,a)的表达公式,如果已知Vπ(s’)要去计算Qπ(s,a)需要知道状态转移函数p(s’|s,a),如果不知道状态转移函数p(s’|s,a)怎么办?可以使用基于动作值函数的贝尔曼方程去求解
在这里插入图片描述
基于动作值的贝尔曼方程见下图:(具体如何根据下图求解状态转移概率有待研究)
在这里插入图片描述
在这里插入图片描述
下面示例中的被划掉的0其实不应该写的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.5节 最优值函数与最优策略

本节讲最优策略与值函数之间的关系,首先定义两个最优值函数:最优状态值函数、最优动作值函数。
在这里插入图片描述
针对最优值函数公式的解释:假如有两个策略:平均策略和贪婪策略,针对特定状态,在这两个策略中能使得在该策略下使得状态值函数最大的策略就是该状态对应的最优的策略,对于任意的状态来说,挑选对应的最优策略,形成的最优状态值函数就是最优状态值函数。
最优动作值函数的解释和上面的解释类似。
在这里插入图片描述
性质有3(暂时不证明,证明很麻烦):
1)结论1解决了最优策略的存在性问题
2)最优策略下的状态值函数就是最优状态值函数
3)最优策略下的动作值函数就是最优动作值函数
根据3个性质可知假如我们找到了最优策略,那么通过计算在最优策略下的每一个状态值函数,就可以得到最优状态值函数,动作值函数也类似。假如我们计算出了最优状态值和最优动作值,那么最优状态值和最优动作值对应的策略就是最优策略。
在这里插入图片描述
如果π是最优策略则一定会满足上面红色框中的式子。即π是最优策略该式子成立充分条件

基于状态值函数的贝尔曼最优方程基于状态值函数的贝尔曼方程的区别在于最优值函数是基于状态值函数的贝尔曼方程最大值,且使用的策略是最优策略
在这里插入图片描述
下图的式子可能对下面的推导有用
在这里插入图片描述
下面的式子的推导不懂,先放着
在这里插入图片描述
如果π是最优策略则一定会满足上面红色框中的式子。即π是最优策略该式子成立充分条件
在这里插入图片描述
方案1:
现有一个策略π,针对该策略进行评估,然后根据贪婪策略改进到一个贪婪策略π',针对该策略π’进行评估,然后根据贪婪策略改进到一个贪婪策略π’',如此下去策略序列收敛到π*
方案2:由本节所讲的两个最优策略所应满足的条件:基于状态值函数的贝尔曼方程基于动作值函数的贝尔曼方程来联立方程组进行求解,这个方程组和之前的贝尔曼方程组之间的区别在于它不是一个线性方程组,原因在于这两个方程中都含有max函数,不是线性方程组因此不可以使用高斯消元法来进行求解。可以使用迭代法求解该方程组即可得到最优策略。

2.6节 值迭代与策略迭代

策略评估:Policy Evalution(PE)
策略改进:Policy Improvement(PI)
在这里插入图片描述
算法2-2是策略改进算法
在这里插入图片描述
在这里插入图片描述
上图的解释:
1)上面介绍了两种最优值函数的方程,因此可以使用两种迭代方法去求解最优策略,绿色的是一种方案,红色的是一种方案
2)流程:不管使用哪种方先迭代得到最优的值函数(包括状态值函数或动作值函数),箭头指向的是流程。
3)基于状态值函数:先迭代求出最优状态值函数V*,然后通过Q*(s,a)的表达式,然后算出Q*,通过计算argmax来找到最优的策略π*(s)
4)基于动作值函数:通过迭代公式多次迭代得到最优的Q,通过计算argmax来找到最优的策略π*(s)
5)红色的圈是表示不管使用哪种迭代方法都得使用状态转移概率

说明:
1)假设有4个状态,对应的状态也有4个,k表示步数,同步更新与异步更新发生在k=1到k=2的过程。
2)默认4个状态之间是可以相互转换的。下图中举的例子是k=2时,s1可能的转换例如s1—>s2和s1—>s4,那么第1种转换需要使用v2,第2种转换需要使用v4,此时s1的v1更新使用的是k=1时刻即使用上一时刻旧的状态值,这种更新称为同步更新。重新定义:在计算k=2时刻的所有状态值时全部使用的旧的状态值,这种更新方法是同步更新。
若在更新k=2时刻的v2时,使用的是已经更新好的v1,这种更新方法称为异步更新
3)v2——>v1蓝色是同步更新,v1——>v2绿色是异步更新
在这里插入图片描述
4)平时用的最多的是用状态值函数。
在这里插入图片描述

2.7节 动态规划求解最优策略

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/268293.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GBDT介绍

GBDT介绍 GBDT(Gradient Boosting Decision Tree),即梯度提升决策树,是一种常用的机器学习算法,属于集成学习方法中的Boosting类算法。GBDT主要用于回归和分类问题,通过结合多个决策树来构建一个更为强大的…

HTTP详解

1. web 1.1 web相关概念 软件架构 C /S:客户端/服务器端 需要安装客户端应用 B/S:浏览器/服务器端 不需要安装客户端应用,对于用户来说只需要记住域名访问就可以,高效,客户端零维护 资源分类 静态资源:所有用户访问后&#x…

【MATLAB】REMD信号分解+FFT+HHT组合算法

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 TVFEMDFFTHHT组合算法是一种结合了总体变分模态分解(TVFEMD)、傅里叶变换(FFT)和希尔伯特-黄变换(HHT)的信号分解方…

HTML5+CSS3+JS小实例:过山车文字动画特效

实例:过山车文字动画特效 技术栈:HTML+CSS+JS 效果: 源码: 【HTML】【JS】 <!DOCTYPE html> <html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"><meta name="viewport" cont…

python如何发送企业微信群消息

一、创建机器人&#xff0c;并获取webhook 1.1 进入企业微信中&#xff0c;添加群机器人&#xff0c;添加完成后可以获取到一个webhook的地址 1.2 群机器人企业微信接口的调用可以参考这个文件 https://developer.work.weixin.qq.com/document/path/99110#%E5%A6%82%E4%BD%…

Python从入门到精通四:Python循环语句

前言 循环普遍存在于日常生活中&#xff0c;同样&#xff0c;在程序中&#xff0c;循环功能也是至关重要的基础功能。 为什么学习循环语句 循环在程序中同判断一样&#xff0c;也是广泛存在的&#xff0c;是非常多功能实现的基础&#xff1a; while循环的基础语法 学习目标&…

【flink番外篇】3、flink的source(内置、mysql、kafka、redis、clickhouse)介绍及示例(3)- kafka

Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点&#xff0c;并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列 本部分介绍Flink 的基础部分&#xff0c;比如术语、架构、编程模型、编程指南、基本的…

mysql,树形结构表中,查询所有末节点数据(叶子结点)

需求&#xff1a;在一个可以存放多级目录的表中&#xff0c;查询出某个课程目录下所有末节点&#xff08;因为只有末节点可以挂载资源&#xff09; 例如下图&#xff1a; 其中 1.11.2.12.1 都是末节点&#xff0c;因为他们已经没有下一级了 catalog表中重要字段有&#xff1a;c…

学了4年C++后,我转向了Python

C 已经学不动了&#xff0c;现在换 Python 还来得及吗&#xff1f;一位四年工作经验的 C 程序员亲述转型历程&#xff0c;这不仅仅是语言上的转变&#xff0c;而是代码思维甚至工作环境的转变。 通常&#xff0c;程序员会认为 Python 编码比较简单&#xff0c;即便是在校学生也…

面试 JVM 八股文五问五答第二期

面试 JVM 八股文五问五答第二期 作者&#xff1a;程序员小白条&#xff0c;个人博客 相信看了本文后&#xff0c;对你的面试是有一定帮助的&#xff01; ⭐点赞⭐收藏⭐不迷路&#xff01;⭐ 1.JVM运行时数据区有几部分?&#xff08;JVM内存布局&#xff09;虚拟机栈和本地方…

MySQL数据恢复之binlog2sql的安装和使用,很详细

MySQL数据恢复之binlog2sql的安装和使用&#xff0c;很详细 一、前言二、binlog2sql的介绍三、安装binlog2sql1、安装git&#xff08;已安装可以跳过&#xff09;&#xff08;1&#xff09;、正常安装&#xff08;2&#xff09;、编译安装报错①、安装libcurl &#xff08;2&am…

Makefile语法

一、Makefile规则格式 Makefile 里面是由一系列的规则组成的&#xff0c;这些规则格式如下&#xff1a; 目标…... : 依赖文件集合…… 命令 1 命令 2 ……参考上一节gcc编译器与Makefile入门参考这条规则 1 main: main.o input.o calcu.o2 gcc -o main main.o input.o c…