强化学习的动态规划三

一、策略的改进

        假设新的贪婪策略π0与旧的策略π效果相当,但并不优于π。由此得出vπ=vπ0,且根据之前的推导可以得出:对于所有的s∈S

        这与贝尔曼最优方程相同,因此,vπ0是v∗,π和π0是最佳策略。因此,策略改进给我们一个更好的策略,除非原始策略已经是最佳的。迄今为止考虑的是确定性策略的特殊情况。在一般情况下,随机策略π规定了每个状态s下采取每个行动a的概率,即π(a|s)。这些思想都很容易扩展到随机策略。特别是,策略改进定理可以按照定义适用于随机情况。

        如果在策略改进步骤中存在并列的情况,即存在多个行动能够达到最大值,那么在随机情况下,我们并不需要从它们中选择一个单一的行动。相反,每个最大化的行动可以在新的贪婪策略中被分配一部分被选择的可能性。只要所有次优的行动都被赋予零概率,任何分配方案都是允许的。

二、典型示例

图1

        图1是小型网格世界中迭代策略评估的收敛过程的例子。左列是随机策略(所有行动均等)的状态值函数的近似序列。右列是与值函数估计相对应的贪婪策略的序列(箭头表示所有实现最大值的行动)。最后一项政策只保证比随机政策有所改进,但在这种情况下,以及在第三次迭代后的所有政策中,它们都是最优的。上图最后一行展示了随机策略的策略改进示例。在这里,原始策略π是等概率的随机策略,而新策略π0是相对于vπ的贪婪策略。底部左边的图显示了vπ的值函数,底部右边的图显示了可能的π0集合。π0图中箭头较多的状态是那些在多个行动达到最大值的状态;这些行动之间的任何概率分配都是允许的。通过观察任何此类政策的值函数vπ0(s),可以看出在所有状态s∈S下,vπ0(s)可以是∇1、⍶2或∇3,而vπ(s)最多为-14。因此,对于所有s∈S,vπ0(s)≥vπ(s),这说明了策略改进。尽管在这种情况下新政策π0碰巧是最优的,但通常情况下只能保证有所改进。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/161097.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

类和对象 下

构造函数 初始化列表 构造函数是在构造类的时候给对象赋初值,并不是给类的成员函数初始化,赋值可以赋多次,而初始化只能初始化一次,这里我们引入初始化列表来对成员函数进行初始化 初始化列表,以冒号 :开…

JavassmMYSQL宠物领养系统08465-计算机毕业设计项目选题推荐(附源码)

目 录 摘要 1 绪论 1.1课题背景及意义 1.2研究现状 1.3ssm框架介绍 1.3论文结构与章节安排 2 宠物领养系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 …

深入剖析:正则表达式的奥秘

简介 正则表达式(Regular Expressions)是一种强大的文本处理工具,一种用于匹配文本模式的字符串。它由特定的字符和操作符组成,用于定义一个搜索模式。这些搜索模式可以用于文本搜索、替换、验证和提取数据等多种用途。 以下是一…

火狐浏览器导入burpsuite CA 证书无法正常上网

当我们给火狐浏览器设置burpsuite代理,并给火狐导入了burpsuite的CA证书后,仍然无法上网的解决方法。 当我们把浏览器的代理配置好之后,浏览器导入证书,burpsuite设置好代理后,如上图,仍然无法上网&…

【后端开发】手写一个简单的线程池

半同步半异步线程池 半同步半异步线程池分为三层: 同步服务层 —— 处理来自上层的任务请求,将它们加入到排队层中等待处理。 同步排队层 —— 实际上是一个“同步队列”,允许多线程添加/取出任务,并保证线程安全。 异步服务层…

Nginx服务器安装证书并启用SSL(acme.sh)

前提 您已购置vps服务器,例如阿里云全球站ecs、AWS EC2、Azure VM、GCP Compute等安全组已开启80、443端口,且访问源设置为0.0.0.0/0域名已设置A记录指向当前操作服务器,若您使用aws ec2,有公有 IPv4 DNS,可供使用 安…

视频视觉效果制作After Effects 2023 MacOS中文

After Effects 2023是一款业界领先的动态图形和视觉特效软件。它提供了强大的工具集,帮助用户创建引人入胜的视觉效果、动态图形和电影级特效。新的版本带来了更快的渲染速度、增强的图像处理和优化的工作流程,使用户能够更高效地工作。无论您是在电影、…

阿里云域名实战

一、准备阿里云服务器,实现网站功能 (1)百度搜索阿里云 (2)登录阿里云 可以使用支付宝,淘宝账号登录 (3)点击控制台 (4)创建实例,购买云服务器 (5&#x…

SSH服务

目录 ​编辑 一、SSH服务基础知识 1、ssh服务介绍 2、ssh服务的配置文件路径 3、查看ssh服务的运行状态 二、SSH服务常用命令 - ssh 1、 SSH服务器 启动/关闭/重启 2、SSH远程连接语法 3、利用ssh协议传输文件和获取文件 4、SSH服务免密登陆 一、SSH服务基础知识 1、…

【Go 编程实践】从零到一:创建、测试并发布自己的 Go 库

为什么需要开发自己的 Go 库 在编程语言中,包(Package)和库(Library)是代码组织和复用的重要工具。在 Go 中,包是代码的基本组织单位,每个 Go 程序都由包构成。包的作用是帮助组织代码&#xf…

C#中LINQtoSQL只能在.NetFramework下使用,不能在.net 下使用

目录 一、在net7.0下无法实现LINQtoSQL 1.VS上建立数据库连接 2.VS上创建LINQtoSQL 二、在.NetFramework4.8下成功实现LINQtoSQL 1.VS上建立数据库连接 2.VS上创建LINQtoSQL 三、结论 四、理由 本文是个人观点,因为我百般努力在.net7.0下无法实现LINQtoSQL的…

【异常错误】Multiple top-level packages discovered in a flat-layout: [

今天在配置环境时,在运行代码: pip install -e . 出现了以下错误: 解决方案 在setup.py中显示加入一行 py_modules[],如: setup(namexxxx,versionx.x,py_modules[], ) 再次运行pip指令安装即可解决。 error: Mul…