强化学习基础_基于价值的强化学习-编程知识

强化学习基础_基于价值的强化学习

news/2025/3/19 12:00:52/文章来源:https://www.cnblogs.com/lizhongzheng/p/18780760

Action-Value Functions 动作价值函数

折扣回报（Discounted Return）

折扣回报 Ut 是从时间步 t 开始的累积奖励，公式为：

Rt 是在时间步 t 获得的奖励。
γ 是折扣因子（0<γ<1），用于减少未来奖励的权重。这是因为未来的奖励通常不如当前奖励重要，例如在金融领域，未来的收益通常会因为通货膨胀等因素而贬值。

动作价值函数

这个函数表示在所有可能的策略中，从状态 s 开始并采取动作 a 的最大预期折扣回报。它是强化学习的目标，即找到最优的 Q 函数。

深度Q网络（Deep Q-Network, DQN）

DQN是一种使用深度学习来近似 Q∗(s,a) 的方法。它的核心思想是通过神经网络来学习 Q 函数，从而能够处理复杂的、高维的状态空间（例如图像）。

神经网络结构：
- 输入：状态 s（例如游戏的屏幕截图）。
- 输出：每个动作 a 的 Q 值。
- 网络结构：
  - 卷积层（Convolutional Layer）：用于处理图像输入，提取图像的特征。
  - 全连接层（Dense Layer）：用于计算每个动作的 Q 值。
  - 输出层：输出每个动作的 Q 值，例如：
    - Q(s,"left";θ)=2000
    - Q(s,"right";θ)=1000
    - Q(s,"up";θ)=3000
选择动作：在给定状态 s 下，选择 Q 值最高的动作：

这个动作被认为是最优的，因为它对应于最高的预期折扣回报。

时序差分学习（Temporal Difference, TD Learning）---用于训练DQN

TD学习是一种用于更新 Q 函数的方法，它通过逐步更新 Q 值来逼近 Q∗(s,a)。TD学习的核心思想是利用当前的 Q 值和新的奖励信息来更新旧的 Q 值。

TD目标（TD Target）：

这个目标值是当前奖励 Rt 加上下一个状态 st+1 的最大 Q 值的折扣。它表示了从当前状态 st 开始并采取动作 at 的预期折扣回报。
TD误差（TD Error）：

TD误差是当前 Q 值与TD目标之间的差异。如果 Q 值过高，则误差为正；如果 Q 值过低，则误差为负。
更新 Q 值：

其中，α 是学习率。这个更新规则通过减少TD误差来逐步调整 Q 值，使其更接近 Q∗(s,a)。

DQN的应用

DQN在许多游戏中表现出色，例如Breakout。以下是DQN在游戏中的应用步骤：

观察状态 st：获取当前状态，例如游戏的屏幕截图。
选择动作 at：根据 Q(st,a;θ) 选择 Q 值最高的动作。
执行动作：在环境中执行动作 at，获得新的状态 st+1 和奖励 Rt。
计算TD目标：根据新的状态和奖励计算TD目标 yt。
更新网络参数：根据TD误差更新 Q 网络的参数 θ。

详细解释

为了更好地理解TD学习，我们可以通过一个具体的例子来说明。假设你正在玩一个游戏，目标是从纽约开车到亚特兰大。你使用一个模型 Q(w) 来估计从纽约到亚特兰大的时间成本，模型的估计值为1000分钟。

第一步：你从纽约出发，模型预测从纽约到亚特兰大的时间为1000分钟。
第二步：你到达华盛顿特区（DC），实际花费了300分钟。此时，你获得了新的信息：从纽约到DC的实际时间为300分钟。
第三步：你更新模型的估计值。假设从DC到亚特兰大的估计时间为600分钟，那么从纽约到亚特兰大的新估计值为：

300+600=900分钟

这个新估计值900分钟比原来的1000分钟更接近真实值。
第四步：你计算TD误差：

δ=1000−900=100

这个误差表示模型的预测值比实际值高了100分钟。
第五步：你根据TD误差更新模型的参数 w，使模型的预测更准确。

通过这种方式，TD学习可以在不需要完整轨迹的情况下逐步更新 Q 函数，从而提高学习效率。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/901457.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

USB杂谈

一、USB控制器 OHCI 1.0、1.1控制器 UHCI：1.0、1.1控制器 EHCI 2.0控制器 XHCI 3.0控制器 EHCI 2.0控制器 HID:人机交互接口，鼠标、手柄、键盘、扫描枪USB协议中对集线器的层数是有限制的，USB1.1规定最多为5层，USB2.0规定最多为7层。理论上，一个USB主控制器最多可接127个…

2025年3月中国数据库排行榜：PolarDB夺魁傲群雄，GoldenDB晋位入三强

2025年3月排行榜解读出炉，榜单前四现波动，PolarDB时隔半年重返榜首、GoldenDB进入前三，此外更有一些新星产品表现亮眼！欢迎阅读、一起盘点~阳春三月，万物复苏。2025年3月中国数据库流行度排行榜的发布，不仅展现了中国数据库企业在技术创新、生态建设和应用深化方面的显著…

Android配置及日志

# 20241902 2024-2025-2 《网络攻防实践》第四周作业

1.实验内容通过本次实验，在搭建的实验环境中完成TCP/IP协议栈重点协议的攻击实验，包括ARP缓存欺骗攻击、ICMP重定向攻击、SYN Flood攻击、TCP RST攻击、TCP会话劫持攻击，并熟悉wireshark、netwox和ettercap等软件的操作。 2.实验过程实验1 ARP缓存欺骗攻击本实验中Kali为…

【Azure Fabric Service】分享使用Visual Studio 2022发布中国区Service Fabric服务应用的办法

问题描述使用Visual Studio 2022如何发布Service Fabric到中国区云服务呢？因为使用VS2022中的插件无法创建Service Fabric Cluster服务。那么，是否又比较好的替代方案呢？问题解答是的，有替代方案。除了昨天介绍使用的Powershell命令外( 【Azure Fabric Service】演示使…

，，，

如何让GameObject销毁时无论是否Active过，都调用OnDestroy

1）如何让GameObject销毁时无论是否Active过，都调用OnDestroy2）升级到URP画面会提升吗3）如何用Dynamic Mesh做出在墙上打洞的效果4）UE可以把烘焙好的光照贴图导出吗这是第424篇UWA技术知识分享的推送，精选了UWA社区的热门话题，涵盖了UWA问答、社区帖子等技术知识点，助力…

测序芯片-不同键合工艺对比-flowcell-代加工-外协加工-委外加工-激光代加工-河南郑州-芯晨微纳（河南）

基因测序(包括DNA测序和RNA测序)是研究生命信息的重要方法之一。DNA测序(DNA sequencing，或译DNA定序)是指分析特定DNA片段的碱基序列，也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。同理，RNA测序是指分析特定RNA片段的碱基序列，也就是腺嘌呤(A)、鸟嘌呤…

Go语言内存管理机制解析

引言 Go语言以高并发性能和简洁的内存管理著称，其独特的内存分配机制在保证开发效率的同时，实现了接近C/C++的性能。本文将深入剖析Go的内存管理设计，结合内存逃逸、多级缓存池、无锁化分配等核心机制，揭示其高效运作的秘密。参考文档 https://www.bilibili.com/video/BV1…

HTTP响应拆分漏洞——CRLF注入漏洞

CRLF漏洞 CRLF注入漏洞：web应用没有对用户输入做严格过滤，导致攻击者可以输入一些恶意字符，攻击者向请求行或首部中的字段注入恶意的CRLF，就能注入一些首部字段或报文主题，并在响应中输出。 HTTP报文中，HTTP header之间是由一个CRLF字符序列分隔开的，HTTP Header 与Body…