深入理解强化学习——马尔可夫决策过程:备份图(Backup Diagram)

分类目录:《深入理解强化学习》总目录


在本文中,我们将介绍备份(Backup)的概念。备份类似于自举之间的迭代关系,对于某一个状态,它的当前价值是与它的未来价值线性相关的。 我们将与下图类似的图称为备份图(Backup Diagram)或回溯图,因为它们所示的关系构成了更新或备份操作的基础,而这些操作是强化学习方法的核心。这些操作将价值信息从一个状态(或状态—动作对)的后继状态(或状态—动作对)转移回它。 每一个空心圆圈代表一个状态,每一个实心圆圈代表一个状态-动作对。
备份图
如下式所示,这里有两层加和。第一层加和是对叶子节点进行加和,往上备份一层,我们就可以把未来的价值( s ′ s' s的价值)备份到黑色的节点。 第二层加和是对动作进行加和,得到黑色节点的价值后,再往上备份一层,就会得到根节点的价值,即当前状态的价值。
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V_\pi(s)=\sum_{a\in A}\pi(a|s)(R(s, a)+\gamma\sum_{s'\in S}p(s'|s,a)V_\pi(s')) Vπ(s)=aAπ(as)(R(s,a)+γsSp(ss,a)Vπ(s))

下图所示为状态价值函数的计算分解,其中子图( b b b)的计算公式为:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)=\sum_{a\in A}\pi(a|s)Q_\pi(s, a) Vπ(s)=aAπ(as)Qπ(s,a)

其给出了状态价值函数与Q函数之间的关系。子图( c c c)计算Q函数为:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) Q_\pi(s, a)=R(s, a)+\gamma\sum_{s'\in S}p(s'|s,a)V_\pi(s') Qπ(s,a)=R(s,a)+γsSp(ss,a)Vπ(s)

我们将上两式的 Q π ( s , a ) Q_\pi(s, a) Qπ(s,a)替换可得:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V_\pi(s)=\sum_{a\in A}\pi(a|s)(R(s, a)+\gamma\sum_{s'\in S}p(s'|s,a)V_\pi(s')) Vπ(s)=aAπ(as)(R(s,a)+γsSp(ss,a)Vπ(s))

所以备份图给出了未来下一时刻的状态价值函数与上一时刻的状态价值函数之间的关联:
状态价值函数的计算分解
对于Q函数,我们也可以进行这样的一个推导。如下图所示,现在的根节点是Q函数的一个节点。Q函数对应于黑色的节点。下一时刻的Q函数对应于叶子节点,有4个黑色的叶子节点:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_\pi(s, a)=R(s, a)+\gamma\sum_{s'\in S}p(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q_\pi(s', a') Qπ(s,a)=R(s,a)+γsSp(ss,a)aAπ(as)Qπ(s,a)

如上式所示,这里也有两层加和。第一层加和先把叶子节点从黑色节点推到空心圆圈节点,进入到空心圆圈结点的状态。 当我们到达某一个状态后,再对空心圆圈节点进行加和,这样就把空心圆圈节点重新推回到当前时刻的Q函数。
备份图
下图子图( c c c)中:
V π ( s ′ ) = ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) V_\pi(s')=\sum_{a'\in A}\pi(a'|s')Q_\pi(s', a') Vπ(s)=aAπ(as)Qπ(s,a)

我们将上式代入上文中 Q π ( s , a ) Q_\pi(s, a) Qπ(s,a)算式可得未来Q函数与当前Q函数之间的关联,即:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_\pi(s, a)=R(s, a)+\gamma\sum_{s'\in S}p(s'|s,a)\sum_{a'\in A}\pi(a'|s')Q_\pi(s', a') Qπ(s,a)=R(s,a)+γsSp(ss,a)aAπ(as)Qπ(s,a)

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/229458.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

allure修改logo 自定义

无论pytest还是httprunner都适用allure生成报告。那我们就有必要对allure报告进行一些定制。我们先修改logo: 1、给allure.yml插件custom-logo-plugin 找到allure安装的位置,在config文件夹下有一个allure.yml的配置文件。打开它,在最后添加…

Python NeuralProphet库: 高效时间序列预测的利器

更多Python学习内容:ipengtao.com 时间序列数据在许多领域中都扮演着关键的角色,从股票价格到气象数据。为了更准确地预测未来趋势,机器学习领域涌现出许多时间序列预测的方法和工具。其中,NeuralProphet库是一个强大的工具&#…

可信区块链运行监测服务平台(TBM)发展研讨会在北京召开

2023年11月23日,由中国信息通信研究院、中国移动通信集团设计院有限公司、区块链服务网络(BSN)发展联盟共同主办的“可信区块链运行监测服务平台(TBM)发展研讨会”在北京成功举行。会议围绕区块链的监测与治理&#xf…

【AIGC】关于Prompt你必须知道的特性

代码和数据:https://github.com/tonyzhaozh/few-shot-learning 一、实践验证的大模型的特性 1. 大模型的偏差 示例:(文本的情感分析:一句话->P(积极)或者N(消极) Input: I hate this movie. Sentiment: Negativ…

JVM GC算法

一, 垃圾回收分类: 按线程数分,可以分为串行垃圾回收器和并行垃圾回收器。 按工作模式分,可以分为并发垃圾回收器和独占式垃圾回收器 按碎片处理方式分,可以分为压缩式垃圾回收器和非压缩式垃圾回收器按工作的内存区间分,又可分为…

GAN:GAN论文学习

论文:https://arxiv.org/pdf/1406.2661.pdf 发表:2014 一、GAN简介:Generative Adversarial Network GAN是由Ian Goodfellow于2014年提出,GAN:全名叫做生成对抗网络。GAN的目的就是无中生有,以假乱真。 …

法线制作神器crazybump 和 Normal Map Generator

UE4系列文章目录 文章目录 UE4系列文章目录前言一、crazybump是什么?二、Normal Map Generator是什么? 前言 我们在使用UE4、UE5制作材质时,经常会遇到使用法线图。使用深度图生成法线图,一般会使用photoShop等软件,对…

untiy 配置iis服务器来打开webgl

最简单的方法是不需要配置服务器,打包的时候直接build and run,但是有时候如果我们需要调整js的内容,会很不方便,所以配置一个iis服务器还是很有必要的 首先要开启iis服务 控制面板,查看方式选类型,点击程…

【0基础学Java第七课】-- 类和对象01

7. 类和对象 7.1 面向对象的初步认知7.1.1 什么是面向对象7.1.2 面向对象与面向过程 7.2 类定义和使用7.2.1 简单认识类7.2.2 类的定义格式7.2.3 定义一个狗类7.2.4 定义一个学生类 7.3 类的实例化7.3.1 什么是实列化7.3.2 引用只能指向对象,且不能同时指向多个对象…

孩子写作业用的护眼灯哪种好?适合考研的护眼台灯推荐

随着现在小孩子的近视率越来越高,全国中小学生近视比率占大多数,许多家长也开始为孩子的健康成长而担忧,这时很多家长就会选择护眼台灯来为孩子保驾护航。但面对市面上五花八门的台灯品牌,各式各样的台灯许多家长却乱了阵脚&#…

Docker监控Weave Scope的安装和使用

1.本地安装Weave Scope 1)创建文件夹。 mkdir /usr/local/bin/scope 2)从本地上传文件。 rz scope.bin以资源形式已上传到文章开篇。 3)修改scope.bin文件为可执行文件。 chmod 755 /usr/local/bin/scope/scope.bin 4)执行sco…

HTML5语法总结大全(持续更新中~)

参考书籍: 《HTML与CSS3基础教程》 参考视频: HTML5完整教学通俗易懂 2023新版前端Web开发HTML5CSS3移动web视频教程,前端web入门首选黑马程序员 参考网站: w3school 文章目录 零.开发环境准备1.需要的工具2.Vscode所需要插件3.其…