RL中on-policy和off-policy的本质区别/重要性采样-编程知识

RL中on-policy和off-policy的本质区别/重要性采样

news/2025/1/1 18:11:43/文章来源:https://www.cnblogs.com/tshaaa/p/18639512

本随笔的图片都来自UCL强化学习课程lec5 Model-free prediction的ppt (Teaching - David Silver ).

回忆值函数的表达式：

\[v_\pi(s) =\mathbb E_\pi[G_t\mid S_t=s] \]

其中\(G_t\)是折扣回报。期望\(\mathbb E\)下面的\(\pi\)是简写，实际上应该写作：

\[A_t,S_{t+1},A_{t+1}\cdots,S_k\sim\pi \]

无论MC prediction还是TD prediction，都是在估计\(\mathbb E_\pi[G_t \mid S_t=s]\)，本质上是在做policy evaluation，evaluate的是\(\pi\)。从值函数表达式就可以看出，要估计\(v_\pi\)，应该整条轨迹(的动作)都是从\(\pi\)上采样的。

如果从行为策略\(\mu\)采样，就变成了用策略\(\mu\)的数据来evaluate策略\(\pi\)，这就需要用importance sampling来修正了。

所以对于离策略的MC方法，在轨迹上每次对action的采样，都需要修正：
离策略的TD方法，只用修正一步：
Q-learning，直接估计的是\(Q^*\)，遍历action求max不涉及action的采样，天生是离策略，不需要修正：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/861014.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2024-2025-1 20241319 《计算机基础与程序设计》第十四周学习总结

2024-2025-1 20241319 《计算机基础与程序设计》第十四周学习总结

作业信息这个作业属于哪个课程 2024-2025-1-计算机基础与程序设计这个作业要求在哪里 https://www.cnblogs.com/rocedu/p/9577842.html#WEEK14这个作业的目标《C语言程序设计》第13章作业正文 https://www.cnblogs.com/wchxx/p/18639513**教材学习内容总结 1. 文件的打开与关闭…

阅读更多...

视野修炼-技术周刊第115期 | 现代的 Nodejs 能力

视野修炼-技术周刊第115期 | 现代的 Nodejs 能力

① 一些现代的 Nodejs 能力 ② MarkItDown ③ ReactAI ④ 背景移除 ⑤ 智能图片描述生成器生成器欢迎来到第 115 期的【视野修炼 - 技术周刊】，下面是本期的精选内容简介 🔥强烈推荐一些现代的 Nodejs 能力🔧开源工具&技术资讯MarkItDown ReactAI🤖AI工具&资讯背…

阅读更多...

2024-2025-1（20241321）《计算机基础与程序设计》第十四周学习总结

2024-2025-1（20241321）《计算机基础与程序设计》第十四周学习总结

这个作业属于哪个课程 <班级的链接>（2024-2025-1-计算机基础与程序设计）这个作业要求在哪里 <作业要求的链接>(2024-2025-1计算机基础与程序设计第十四周作业)这个作业的目标 <深刻学习C语言，反思一周学习，温故知新>作业正文 ... 本博客链接https://www.…

阅读更多...

11. 日期和时间控件

11. 日期和时间控件

一、日期和时间控件日期和时间类也是 PySide6 中的基本类，利用它们可以设置纪年法、记录某个日期时间点、对日期时间进行计算等。用户输入日期时间及显示日期时间时需要用到日期时间控件，本节介绍有关日期时间的类及相关控件。我们可以在终端中使用 pip 安装 pyside6 模块。 …

阅读更多...

浅析FHQ-treap

浅析FHQ-treap

前言更好的阅读体验默认读者会 BST 的基本操作。节点定义替罪羊树采用了懒惰删除的方法，不会立即删除某个点，而是在重构时不放进数组。 struct node{ int ch[2], val; int siz1, siz2, cnt, sum; //扣去懒惰删除的节点数量，没扣去懒惰删除的节点数量，树内相同权值的…

阅读更多...

20241313刘鸣宇《计算机基础与程序设计》第14周学习总结

20241313刘鸣宇《计算机基础与程序设计》第14周学习总结

2024-2025-1 20241313《计算机基础与程序设计》第14周学习总结作业信息这个作业属于哪个课程 <班级的链接>（如2024-2025-1-计算机基础与程序设计）这个作业要求在哪里 <作业要求的链接>(如2024-2025-1计算机基础与程序设计第一周作业)这个作业的目标 <写上具…

阅读更多...

学习笔记：旋转treap

学习笔记：旋转treap

前言更好的阅读体验。无旋 treap。默认读者会 BST 的基本操作、堆和旋转。本文旋转部分和上面那篇文章的相同。代码中是小根堆。思想 treap 既是一棵二叉查找树（tree），也是一个二叉堆（heap）。但是如果这两个数据结构用同一个权值维护，那么这两种数据结构是矛盾的。…

阅读更多...

最早发明的自平衡二叉树：AVL

最早发明的自平衡二叉树：AVL

前言更好的阅读体验默认读者会基本的 BST 操作。节点定义平衡因子：BF(BalanceFactor)，左子树高 \(-\) 右子树高。平衡树是让树的形态尽可能像完全二叉树，而不是链。在 AVL 中，我们认为 \(\left|\text{BF}\right|\le 1\)，也就是 BF 为 \(0,1,-1\) 时的子树是平衡的，…

阅读更多...

[COCI2015-2016#2] DRZAVA

[COCI2015-2016#2] DRZAVA

思路先把赛时想法搬一部分过来转化题意, 对于 \(n\) 个带权 \(k\) 的点, 任意两点 \(i, j\) 之间有双向连边, 其边权为 \(w_{i, j} = d_{i, j}\) , 求一最小阈值 \(C\) , 满足对于所有 \(w \leq C\) 的边连接后, 存在一个连通块 \(G\), 使得 \[\sum_{i = 1}^{\lvert G \rvert}…

阅读更多...

The End

The End

一、学期回顾 1.1 回顾你对于软件工程课程的想象根据你对课程目标和期待，回顾目前的所学所练所得，在哪些方面达到了你的期待和目标，哪些方面还存在哪些不足，为什么？达成的目标与期待理论与实践结合：课程的最大目标之一是将软件工程的理论知识应用到实践中。在这一点上…

阅读更多...

关于本站

关于本站

我是 fush，一个很菜的 oier。这里，我只想分享一些自己在学习记录。由于本人较菜，有哪里写的不严谨的地方欢迎指出。除了下面几个账号（本人的），如果要转载请写明出处，谢谢。洛谷

阅读更多...

从 Leafy-Tree 到 WBLT

从 Leafy-Tree 到 WBLT

更好的阅读体验。 UPD：2024/12/04 添加序列操作 UPD：2024/12/10 添加可持久化前言前面说过 FHQ-treap 的缺点在于常数。这次篇文章要讲解 WBLT，码量与 FHQ-treap 差的不多，结构与线段树类似。也可以分裂合并（不推荐），可持久化，但常数远小于 FHQ-treap。美中不足的…

阅读更多...

推荐文章

最新文章