DQN vs. DDQN

news/2024/12/20 13:53:54/文章来源:https://www.cnblogs.com/GraphL/p/18619127

在传统的DQN(Deep Q-Learning Network)和DDQN(Double Deep Q-Learning Network)之间,主要区别如下:

1. Q值估计的目标函数不同

  • DQN: 在DQN中,目标Q值是通过最大化Q值的动作直接由同一个网络(目标网络)计算得到的。这可能会导致Q值过高估计(overestimation)的现象。
    \( Y^{DQN} = r + \gamma \max_a Q(s_{t+1}, a; \theta^-) \)
    这里,\(\theta^-\) 是目标网络的参数。

  • DDQN: 在DDQN中,目标Q值的动作选择和Q值估计分开使用两个网络完成。具体地,它使用当前网络(在线网络)选择动作,然后使用目标网络评估该动作的Q值,从而减少了Q值过高估计的可能性。
    \( Y^{DoubleQ} = r + \gamma Q(s_{t+1}, \arg\max_a Q(s_{t+1}, a; \theta); \theta^-) \)
    这里,动作的选择由当前网络的参数 \(\theta\) 决定,而Q值的评估则由目标网络的参数 \(\theta^-\) 决定。

2. 引入了分离的动作选择和Q值更新

  • DQN在更新Q值时直接依赖于目标网络的最大Q值输出,而DDQN通过分离动作选择和目标Q值计算,降低了估值的不稳定性和偏差。
  • DDQN的这种方法可以更稳定地收敛,同时避免因过高估计导致的策略错误。

3. 稳定性和性能改进

  • DQN可能因过高估计导致策略不稳定,特别是在训练过程中容易出现“抖动”现象。
  • DDQN通过分离动作选择和Q值估计,引入更精确的目标,增强了训练的稳定性和最终性能。

总结

  • DQN 采用的是单一网络进行动作选择和目标计算,因此可能会导致Q值过高估计。
  • DDQN 通过分离动作选择和目标计算,降低了Q值过高估计的问题,从而提升了算法的稳定性和准确性。

希望这个解释能够清晰地帮助你理解DQN和DDQN的主要区别!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/855829.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人员检测视频分析服务器安装网络监控系统时有哪些常见的技术挑战?

在构建一个高效、可靠的网络监控系统时,技术人员需要面对一系列技术挑战,这些挑战覆盖了从系统集成到信息安全的各个环节。随着技术的不断进步,尤其是在人工智能和物联网技术的推动下,安防监控系统变得更加复杂和强大。以下是在安装网络监控系统时可能遇到的一些常见技术挑…

六款电脑端简单好用的时间管理app对比推荐

今天分享六款压箱底的时间管理app,简单且好用,让你从此不再拖延!因为我平时工作用Windows电脑比较多,所以主要介绍可以在Win电脑端使用的,部分app还支持在手机端实时同步! 1、微软待办todo 微软生态系统集成,“我的一天” 可将今日任务展示于首页及 Widget 小组件。 “建…

jellyfine套件登录忘记密码

1.ssh登录群晖,管理员模式,进入蓝色路径 var--config---system.xml 2. 用vim命令修改文件内容将<IsStartupWizardCompleted>true</IsStartupWizardCompleted>改成<IsStartupWizardCompleted>false</IsStartupWizardCompleted>重启jellyfin ,重新初始…

排查Java进程占用CPU高的原因

背景 一般java程序占用cpu内存都不会太高,出现占用高的情况,第一反应就是,进程在某个地方死循环了。排查top -Hp 15057 查看下进程中的线程资源占用情况由上图可见,CPU时间片主要是被15393 这个线程给吃掉了, 所以目标锁定在 15393。 执行 printf "%x\n" 15393,…

Java 项目愚蠢的分层及解决方案

《整洁架构之道》的最后一章《细节决定成败》又在讨论 Javaer 永恒的问题:分层后 DAO Service Controller 应该按功能分包还是按层分包。 按功能分包的人认为这些文件在业务上是一起的,应该放在同一个包。按层分包的人认为每个层代表了不同的技术,应该按层分包。 可以想象,…

JS信息收集

引子:上一篇所介绍源码信息收集,主要针对目标站点不可见的后端源码进行收集,往往能收集到的概率小但危害较大。而本篇则介绍针对前后端分离&前端Web的JS的信息收集,由于源码本身可见,因此收集重点从源码转为源码中的敏感信息。免责声明:本文章仅用于交流学习,因文章…

vector容器/构造函数/赋值操作/容量和大小/插入和删除/数据存储/互换容器/预留空间

vector基本概念 功能: vector数据结构和数组非常相似,也称为单端数组vector与普通数组区别: 不同之处在于数组是静态空间,而vector可以动态扩展 动态扩展: 并不是在原空间之后续接新空间,而是找更大的内存空间,然后将元数据拷贝新空间,释放原空间vector容器的迭代器是支…

Win11系统如何更改为Win10右键菜单样?Win11系统更改为Win10右键菜单样式方法

Win11系统更改为Win10右键菜单样式方法: 1、按“Win+X”或者鼠标右键点击“开始”菜单,打开“终端管理员”。如下图:2、在命令输入下方命令: reg add "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /f /ve3、按“Enter(…

manim边学边做--旋转

本篇介绍Manim中的两个旋转类的动画,名称差不多,分别是Rotate和Rotating。 Rotate类主要用于对图形对象进行指定角度、围绕特定点的精确旋转,适用于几何图形演示、物理模拟和机械运动展示等场景; Rotating类则侧重于创建让对象围绕指定轴或点持续旋转的动画,用于动态图标、…

【日记】什么叫做偷感十足哈哈哈哈哈哈哈哈哈(962 字)

正文今天只有一件比较有意思的事情。晚上应酬,提前庆祝冬至,吃的羊肉汤。我也不知道为什么自上了大学之后,去过的每一个地方都很重视冬至。或许因为快过年了?行领导,市分行检查组,还有一个客户。分了两桌,底层员工一桌,领导和客户一桌。来了三个人来我们这打圈…… 酒过…

博弈论+ybt题解

NIM游戏及其证明 题目描述即为T1,不多赘述有向图游戏及SG函数而对于由\(n\)个有向图游戏组成的组合游戏,设它们的起点分别为\(S_1, S_2, \ldots, S_n\),则有定理: 当且仅当\(\text{SG}(s_1) \oplus \text{SG}(s_2) \oplus \ldots \oplus \text{SG}(s_n) \neq 0\)时,这个游…

MapperScannerConfigurer 配置出错造成没有读取 db.properties 文件中的数据库连接参数

MyBatis 和 Spring 集成中,MapperScannerConfigurer 配置出错造成没有读取 db.properties 文件中的数据库连接参数,进而加载不到正确的 JDBC 驱动,本文记录了问题表现和问题分析。MyBatis-Spring 实现 MyBatis 和 Spring 框架集成。 问题现象 在配置中碰到不能加载 MySQL JD…