强化学习基础_基于价值的强化学习

news/2025/3/19 12:00:52/文章来源:https://www.cnblogs.com/lizhongzheng/p/18780760

Action-Value Functions 动作价值函数

折扣回报(Discounted Return)

折扣回报 Ut 是从时间步 t 开始的累积奖励,公式为: image-20250319113722028

  • Rt 是在时间步 t 获得的奖励。

  • γ 是折扣因子(0<γ<1),用于减少未来奖励的权重。这是因为未来的奖励通常不如当前奖励重要,例如在金融领域,未来的收益通常会因为通货膨胀等因素而贬值。

动作价值函数 image-20250319114051592

这个函数表示在所有可能的策略中,从状态 s 开始并采取动作 a 的最大预期折扣回报。它是强化学习的目标,即找到最优的 Q 函数。

深度Q网络(Deep Q-Network, DQN)

DQN是一种使用深度学习来近似 Q∗(s,a) 的方法。它的核心思想是通过神经网络来学习 Q 函数,从而能够处理复杂的、高维的状态空间(例如图像)。

  • 神经网络结构
    • 输入:状态 s(例如游戏的屏幕截图)。
    • 输出:每个动作 aQ 值。
    • 网络结构
      • 卷积层(Convolutional Layer):用于处理图像输入,提取图像的特征。
      • 全连接层(Dense Layer):用于计算每个动作的 Q 值。
      • 输出层:输出每个动作的 Q 值,例如:
        • Q(s,"left";θ)=2000
        • Q(s,"right";θ)=1000
        • Q(s,"up";θ)=3000
  • 选择动作: 在给定状态 s 下,选择 Q 值最高的动作:image-20250319114248622

这个动作被认为是最优的,因为它对应于最高的预期折扣回报。

时序差分学习(Temporal Difference, TD Learning)---用于训练DQN

TD学习是一种用于更新 Q 函数的方法,它通过逐步更新 Q 值来逼近 Q∗(s,a)。TD学习的核心思想是利用当前的 Q 值和新的奖励信息来更新旧的 Q 值。

  • TD目标(TD Target)

    image-20250319114537505

    这个目标值是当前奖励 Rt 加上下一个状态 st+1 的最大 Q 值的折扣。它表示了从当前状态 st 开始并采取动作 at 的预期折扣回报。

  • TD误差(TD Error)

    image-20250319114940945

    TD误差是当前 Q 值与TD目标之间的差异。如果 Q 值过高,则误差为正;如果 Q 值过低,则误差为负。

  • 更新 Q 值

    image-20250319114956282

    其中,α 是学习率。这个更新规则通过减少TD误差来逐步调整 Q 值,使其更接近 Q∗(s,a)。

DQN的应用

image-20250319115313120

DQN在许多游戏中表现出色,例如Breakout。以下是DQN在游戏中的应用步骤:

  1. 观察状态 st:获取当前状态,例如游戏的屏幕截图。
  2. 选择动作 at:根据 Q(st,a;θ) 选择 Q 值最高的动作。
  3. 执行动作:在环境中执行动作 at,获得新的状态 st+1 和奖励 Rt
  4. 计算TD目标:根据新的状态和奖励计算TD目标 yt
  5. 更新网络参数:根据TD误差更新 Q 网络的参数 θ

详细解释

为了更好地理解TD学习,我们可以通过一个具体的例子来说明。假设你正在玩一个游戏,目标是从纽约开车到亚特兰大。你使用一个模型 Q(w) 来估计从纽约到亚特兰大的时间成本,模型的估计值为1000分钟。

  • 第一步:你从纽约出发,模型预测从纽约到亚特兰大的时间为1000分钟。

  • 第二步:你到达华盛顿特区(DC),实际花费了300分钟。此时,你获得了新的信息:从纽约到DC的实际时间为300分钟。

  • 第三步:你更新模型的估计值。假设从DC到亚特兰大的估计时间为600分钟,那么从纽约到亚特兰大的新估计值为:

    300+600=900分钟

    这个新估计值900分钟比原来的1000分钟更接近真实值。

  • 第四步:你计算TD误差:

    δ=1000−900=100

    这个误差表示模型的预测值比实际值高了100分钟。

  • 第五步:你根据TD误差更新模型的参数 w,使模型的预测更准确。

通过这种方式,TD学习可以在不需要完整轨迹的情况下逐步更新 Q 函数,从而提高学习效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/901457.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

USB杂谈

一、USB控制器 OHCI 1.0、1.1控制器 UHCI:1.0、1.1控制器 EHCI 2.0控制器 XHCI 3.0控制器 EHCI 2.0控制器 HID:人机交互接口,鼠标、手柄 、键盘、扫描枪USB协议中对集线器的层数是有限制的,USB1.1规定最多为5层,USB2.0规定最多为7层。 理论上,一个USB主控制器最多可接127个…

2025年3月中国数据库排行榜:PolarDB夺魁傲群雄,GoldenDB晋位入三强

2025年3月排行榜解读出炉,榜单前四现波动,PolarDB时隔半年重返榜首、GoldenDB进入前三,此外更有一些新星产品表现亮眼!欢迎阅读、一起盘点~阳春三月,万物复苏。2025年3月中国数据库流行度排行榜的发布,不仅展现了中国数据库企业在技术创新、生态建设和应用深化方面的显著…

# 20241902 2024-2025-2 《网络攻防实践》第四周作业

1.实验内容 通过本次实验,在搭建的实验环境中完成TCP/IP协议栈重点协议的攻击实验,包括ARP缓存欺骗攻击、ICMP重定向攻击、SYN Flood攻击、TCP RST攻击、TCP会话劫持攻击,并熟悉wireshark、netwox和ettercap等软件的操作。 2.实验过程 实验1 ARP缓存欺骗攻击 本实验中Kali为…

【Azure Fabric Service】分享使用Visual Studio 2022发布中国区Service Fabric服务应用的办法

问题描述 使用Visual Studio 2022如何发布Service Fabric到中国区云服务呢? 因为使用VS2022中的插件无法创建Service Fabric Cluster服务。那么,是否又比较好的替代方案呢?问题解答 是的,有替代方案。 除了昨天介绍使用的Powershell命令外( 【Azure Fabric Service】演示使…

如何让GameObject销毁时无论是否Active过,都调用OnDestroy

1)如何让GameObject销毁时无论是否Active过,都调用OnDestroy2)升级到URP画面会提升吗3)如何用Dynamic Mesh做出在墙上打洞的效果4)UE可以把烘焙好的光照贴图导出吗这是第424篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖了UWA问答、社区帖子等技术知识点,助力…

测序芯片-不同键合工艺对比-flowcell-代加工-外协加工-委外加工-激光代加工-河南郑州-芯晨微纳(河南)

基因测序(包括DNA测序和RNA测序)是研究生命信息的重要方法之一。DNA测序(DNA sequencing,或译DNA定序)是指分析特定DNA片段的碱基序列, 也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。同理,RNA测序是指分析特定RNA片段的碱基序列,也就是腺嘌呤(A)、鸟嘌呤…

Go语言内存管理机制解析

引言 Go语言以高并发性能和简洁的内存管理著称,其独特的内存分配机制在保证开发效率的同时,实现了接近C/C++的性能。本文将深入剖析Go的内存管理设计,结合内存逃逸、多级缓存池、无锁化分配等核心机制,揭示其高效运作的秘密。 参考文档 https://www.bilibili.com/video/BV1…

HTTP响应拆分漏洞——CRLF注入漏洞

CRLF漏洞 CRLF注入漏洞:web应用没有对用户输入做严格过滤,导致攻击者可以输入一些恶意字符,攻击者向请求行或首部中的字段注入恶意的CRLF,就能注入一些首部字段或报文主题,并在响应中输出。 HTTP报文中,HTTP header之间是由一个CRLF字符序列分隔开的,HTTP Header 与Body…

图案化CCD视觉精密点胶技术-flowcell-代加工-外协加工-委外加工-激光代加工-河南郑州-芯晨微纳(河南)

图案化视觉点胶技术(Patterned Vision Dispensing Technology)是一种结合高精度点胶工艺与机器视觉系统的先进制造技术,能够根据预设的图案或路径精确分配胶水、导电浆料、封装材料等流体,广泛应用于电子封装、微纳制造、生物芯片等领域。技术原理视觉定位:通过高分辨率摄…

充电桩消防火焰检测系统

充电桩消防火焰检测系统的核心在于其强大的识别能力,充电桩消防火焰检测系统一旦检测到火焰或烟雾,系统会立即启动一系列自动响应机制。首先,自动灭火系统会被触发,根据充电桩的具体环境和安全规范,选择合适的灭火方式,如气体灭火或水喷淋系统。这种即时干预能够在火势初…