强化学习中策略的迭代

一、策略迭代

        一旦使用vπ改善了策略π,产生了更好的策略π0,我们就可以计算vπ0并再次对其进行改进,产生更好的π00。因此,我们可以获得一系列单调改善的策略和值函数:

        其中E−→表示策略评估,I−→表示策略改进。每个策略都保证比前一个策略有严格改进(除非它已经是最佳的)。因为有限MDP只有有限数量的策略,所以这个过程必须在有限次迭代中收敛到最优策略和最优值函数。

        这种方法称为策略迭代。完整的算法如图1所示。请注意,每次策略评估本身都是迭代计算,都是从上一个策略的值函数开始的。这通常会导致策略评估的收敛速度大大提高(可能是因为值函数从一个策略到下一个策略变化不大)。

        这种寻找最优策略的方法称为策略迭代。完整的算法如图1所示。请注意,每次策略评估本身都是迭代计算,都是从上一个策略的值函数开始的。这通常会导致策略评估的收敛速度大大提高(可能是因为值函数从一个策略到下一个策略变化不大)。

        策略迭代通常在出人意料的少量迭代后就能收敛。网格世界的示例说明了这一点。底部左边的图显示了等概率随机策略的值函数,底部右边的图显示了针对该值函数的贪婪策略。策略改进理论保证了我们这些策略优于原始的随机策略。然而,在这种情况下,这些策略不仅是更好的,而且是最佳的,以最少的步骤到达终止状态。在这个例子中,策略迭代只需一次迭代就能找到最优策略。

图1

图1中,针对v∗的政策迭代(使用迭代策略评估)算法存在一个不易察觉的错误,即如果策略在两个或更多个同样好的策略之间持续切换,该算法可能永远无法终止。可以通过添加额外的标志来修复此错误,但这会使伪代码变得非常难看。

二、典型示例

        Jack经营着一家全国范围的汽车租赁公司的两个门店。每天,每个门店都会有一定数量的顾客前来租车。如果Jack手头有可用的汽车,他会将车出租出去,并获得该全国性公司提供的10美元信用。如果他在该门店没有汽车可用,那么这笔生意就泡汤了。汽车在归还后的第二天就可以出租。为了确保汽车在需要的地方可用,Jack可以在一晚之间将汽车从这两个地点之间进行调换,每次移动的费用为2美元。我们假设每个地点请求和归还的汽车数量是泊松随机变量,这意味着其概率是 ,其中λ是期望值。假设第一个和第二个门店的请求期望值λ分别为3和4,归还期望值分别为3和2。为了简化问题,我们假设每个地点最多只能停放20辆汽车(超出数量的汽车将被退还给全国性公司,从而从问题中消失),并且每晚最多可以从一个地点移动5辆汽车到另一个地点。我们将贴现率γ设置为0.9,并将此问题表述为一个持续的有限MDP,其中时间步长为天,状态为每天结束时每个地点的汽车数量,行动是在一夜之间两个地点之间移动的汽车数量的净差额。图2显示了从永不移动任何汽车的策略开始的政策迭代找到的策略序列。

图2

        图2显示了政策迭代在Jack的汽车租赁问题上找到的政策序列,以及最终的状态值函数。前五幅图展示了每天结束时每个地点的汽车数量,从第一个地点到第二个地点的汽车数量(负数表示从第二个地点转移到第一个地点的汽车数量)。每个连续的政策都是对前一个政策的严格改进,最后一个政策是最佳的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/161794.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

07 点积

点积 基本运算几何解释投影运算和基本运算的联系多维空间到一维空间的投影 点积的作用 这是关于3Blue1Brown "线性代数的本质"的学习笔记。 基本运算 两个维数相同的向量 [ 2 , 7 , 1 ] T , [ 8 , 2 , 8 ] T [2, 7, 1]^{T},[8, 2, 8]^{T} [2,7,1]T,[8,2,8]T,求它们…

跟着Nature Communications学作图:纹理柱状图+添加显著性标签!

📋文章目录 复现图片设置工作路径和加载相关R包读取数据集数据可视化计算均值和标准差方差分析组间t-test 图a可视化过程图b可视化过程合并图ab 跟着「Nature Communications」学作图,今天主要通过复刻NC文章中的一张主图来巩固先前分享过的知识点&#…

D-Link监控账号密码信息泄露

访问漏洞的 url 为 /config/getuser?index0其中泄露了账号密码 使用泄露的账号密码登陆系统 文笔生疏,措辞浅薄,望各位大佬不吝赐教,万分感谢。 免责声明:由于传播或利用此文所提供的信息、技术或方法而造成的任何直接或间接的…

47基于matlab的水印提取,将水印和载体进行图像融合

基于matlab的水印提取,将水印和载体进行图像融合,成为一体,可对合成图像进行加噪处理,剪切处理,小波压缩处理,旋转处理等操作,最后对合成图像实现水印提取,程序已调通,可…

排序——冒泡排序

冒泡排序的基本思想 从前往后&#xff08;或从后往前&#xff09;两两比较相邻元素的值&#xff0c;若为逆序&#xff08;即 A [ i − 1 ] < A [ i ] A\left [ i-1\right ]<A\left [ i\right ] A[i−1]<A[i]&#xff09;&#xff0c;则交换它们&#xff0c;直到序列…

Web前端—网页制作(以“学成在线”为例)

版本说明 当前版本号[20231105]。 版本修改说明20231105初版 目录 文章目录 版本说明目录day07-学成在线01-项目目录02-版心居中03-布局思路04-header区域-整体布局HTML结构CSS样式 05-header区域-logo06-header区域-导航HTML结构CSS样式 07-header区域-搜索布局HTML结构CSS…

PostgreSQL manual

set path D:\DB\PostgreSQL\16\binconnect to database –h is host name -p is port number -d is database name -U is for user name psql -h localhost -p 5432 -d postgres -U postgres查詢版本信息 select version(); PostgreSQL 8.4.20 on x86_64-redhat-linux-gnu, …

WSL 下载

可以使用单个命令安装运行 WSL 所需的一切内容。 在管理员模式下打开 PowerShell 或 Windows 命令提示符&#xff0c;方法是右键单击并选择“以管理员身份运行”&#xff0c;输入 wsl --install 命令&#xff0c;然后重启计算机。 首先查看可以下载的版本 最后再运行wsl --ins…

【PC电脑windows-学习样例tusb_serial_device-ESP32的USB模拟串口程序+VScode建立工程+usb组件添加+-基础样例学习】

【PC电脑windows-学习样例tusb_serial_device-ESP32的USB模拟串口程序-基础样例学习】 1、概述2、实验环境3-1、 物品说明3-2、所遇问题&#xff1a;ESP32 cannot open source file "tinyusb.h"或者“tinyusb.h:No such file or directory ....”3-3、解决问题&#…

康耐视深度学习ViDi-ViDi四大工具介绍与主要用途

Cognex ViDi 工具是一系列机器视觉工具&#xff0c;通过深度学习解决各种难以解决的挑战。虽然这些工具共享一个引擎&#xff0c;但它们在图像中寻找的内容不同。更具体地说&#xff0c;在分析单个点、单个区域或完整图像时&#xff0c;每个工具都有不同的侧重点。 Locate&…

Alfred 5 for mac(最好用的苹果mac效率软件)中文最新版

Alfred 5 Mac是一款非常实用的工具&#xff0c;它可以帮助用户更加高效地使用Mac电脑。用户可以学会使用快捷键、全局搜索、快速启动应用程序、使用系统维护工具、快速复制粘贴文本以及自定义设置等功能&#xff0c;以提高工作效率。 Alfred for Mac 的一些主要功能包括&#…

多目标跟踪算法 实时检测 - opencv 深度学习 机器视觉 计算机竞赛

文章目录 0 前言2 先上成果3 多目标跟踪的两种方法3.1 方法13.2 方法2 4 Tracking By Detecting的跟踪过程4.1 存在的问题4.2 基于轨迹预测的跟踪方式 5 训练代码6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习多目标跟踪 …