强化学习（五）-Deterministic Policy Gradient (DPG) 算法及公式推导-编程知识

强化学习（五）-Deterministic Policy Gradient (DPG) 算法及公式推导

news/2024/11/14 15:45:21/文章来源:https://blog.csdn.net/weixin_42529756/article/details/135175448

针对连续动作空间，策略函数没法预测出每个动作选择的概率。因此使用确定性策略梯度方法。

0 概览

1 actor输出确定动作
2 模型目标：
actor目标：使critic值最大
critic目标：使TD error最大
3 改进：
使用两个target 网络减少TD error自举估计。

1 actor 和 critic 网络

确定性策略网络
actor: a= $\pi(s;\theta)$ 输出为确定性的动作a
动作价值网络
critic Q=q(s,a;w) ,用于评估动作a的好坏

2 critic网络训练

观察一组数据 $s_t,a_t,r_t,s_{t+1})$
即在状态 $s_t$ 时，执行动作 $a_t$ ,得到奖励 $r_t$ ，和下一状态 $s_{t+1}$
$a_t时刻Q值: q_t=q(s_t,a_t,w)$
$a_{t+1}时刻Q值: q_{t+1}=q(s_{t+1},a_{t+1},w)$ ，其中 $a_{t+1}=\pi(s_{t+1};\theta)$
即TD Target = $r_t+\gamma * q_{t+1}$
目标：使t时刻的TD error最小
TD error： $\delta_t=q_t-(r_t+\gamma * q_{t+1})$
$w=w-\alpha *\delta_t* \frac{\partial q(s_t,a_t;w)}{\partial w}$

3 actor 网络训练

actor 网络目标是时critic值最大，所以要借助critic网络，将actor值带入critic网络，使critic最大。

a= $\pi(s;\theta)$ ,带入q(s,a;w)中得到 q(s, $\pi(s;\theta)$ ;w)
即使 q(s, $\pi(s;\theta)$ ;w) 最大
对 $\theta$ 求导:
$g=\frac{\partial q(s,\pi(s;\theta);w)}{\partial \theta}=\frac{\partial a }{\partial \theta} *\frac{\partial q(s,a;w) }{\partial a}$
参数更新
$\theta=\theta + \beta* g$

4 训练改进

4.1 主网络actor和critic更新

critic 网络更新时，在计算TD error时，使用了自举，会导致数据过高估计或者过低估计。
关键在于 $t + 1$ 时刻的 $a_{t+1}和q_{t+1}怎么生成$
和其他方法一样，可以使用两个actor和两个critic网络，减少自举带来的估计。

t+1 时的 $a_{t+1}$ 使用另一个target 策略网络actor生成
$a_{t+1}=\pi(s_{t+1};\bar\theta)$
同样t+1时 $q_{t+1}$ 使用另一个target critic网络生成
$q_{t+1}=q(s_{t+1},a_{t+1};\bar w)$

actor 参数更新方式不变。
critic更新方式变化，使用了target网络产生的 $a_{t+1}和q_{t+1}$
在这里插入图片描述

4.2 target网络actor和critic更新

target 网络初始时来自主网络，后期更新时，部分来自主网络，部分来自自己。
$\bar w= \tau *w +(1-\tau) * \bar w$
$\bar \theta= \tau *\theta +(1-\tau) * \bar \theta$

5 其他改进措施

添加经验回放， Experience replay buffer
多步TD target
target networks

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/295622.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

每日一题——轮转数组

每日一题——轮转数组

1. 题目描述给定一个整数数组nums，将数组中的元素向右轮转k个位置，其中k是非负数。示例1: 输入：nums [1,2,3,4,5,6,7]，k 3 输出：[5,6,7,1,2,3,4] 解释： 向右轮转 1步：[7,1,2,3,4,5,6] 向右…

阅读更多...

C++模版类

C++模版类

文章目录 class与typename区别template<class NameType, class AgeType>template<typename T>class vs typename 基本代码实现 class与typename区别在 C 中，template<class NameType, class AgeType> 和 template<typename T> 都是模板声…

阅读更多...

Downie 4 中文

Downie 4 中文

Downie 4是一款备受推崇的视频下载工具，以其高效、便捷的特点在广大用户中获得了良好的口碑。这款工具不仅支持从各种不同的网站上下载视频，还具备了智能化、多线程下载的优势，让用户能够快速地获取所需的视频资源。首先，Downie…

阅读更多...

非阻塞 IO(NIO)

非阻塞 IO(NIO)

文章目录非阻塞 IO(NIO)模型驱动程序应用程序模块使用非阻塞 IO(NIO) 上一节中 https://blog.csdn.net/tyustli/article/details/135140523，使用等待队列头实现了阻塞 IO 程序使用时，阻塞 IO 和非阻塞 IO 的区别在于文件打开的时候是否使用了 O_NONB…

阅读更多...

单词接龙[中等]

单词接龙[中等]

一、题目字典wordList中从单词beginWord和endWord的转换序列是一个按下述规格形成的序列beginWord -> s1 -> s2 -> ... -> sk： 1、每一对相邻的单词只差一个字母。 2、对于1 < i < k时，每个si都在wordList中。注意，beg…

阅读更多...

Android模拟器的安装和adb连接

Android模拟器的安装和adb连接

一、前置说明 APP 自动化可以使用真机进行测试，也可以使用模拟器来模拟安卓设备。我们可以根据个人喜好安装模拟器，个人推荐安装两款模拟器：网易 MuMu 模拟器、夜神模拟器。 MuMu模拟器可以支持 Android 12 版本，优点是&#xf…

阅读更多...

微信小程序开发学习（上强度）：从0开始写项目

微信小程序开发学习（上强度）：从0开始写项目

前置知识 1、配置插件微信小程序基础模板引入sass的两种方法_微信小程序使用sass-CSDN博客之后在对应页面里新建一个scss文件，写css 2、注册小程序，有个自己的appid，不用测试号了 5.1.注册小程序账号获取appid及个人和企业版差异_哔哩…

阅读更多...

Vue3中使用props和emits详解

Vue3中使用props和emits详解

前言在Vue3中，父子组件之间的数据传递是一个常见的需求。本文将介绍如何在Vue3中传递对象，并且在子组件中访问和修改父组件对象中的属性值，以及子组件如何调用父组件中的方法。在 Vue 3 中，父子组件之间传值有以下作用&#xf…

阅读更多...

实用干货：公司规定所有接口都用 POST请求，为什么？

实用干货：公司规定所有接口都用 POST请求，为什么？

大家好，我是大澈！ 本文约1000字，整篇阅读大约需要2分钟。感谢关注微信公众号：“程序员大澈”，免费领取"面试礼包"一份，然后免费加入问答群，从此让解决问题的你不再孤单&#xff01…

阅读更多...

可视化开发

可视化开发

可视化开发数据可视化交互式可视化文章目录可视化开发前言一、可视化开发二、Python数据可视化大屏GIS图像智能识别处理软件开发三、可视化开发必备总结前言可视化开发可以帮助开发者通过图形化界面和拖放操作来创建、编辑和测试应用程序。使用这些工具，开发者可以提高开…

阅读更多...

python爬虫入门，零基础适用

python爬虫入门，零基础适用

文章目录什么是爬虫？它能解决什么问题？爬虫的分类：通用网络爬虫：聚焦网络爬虫： 企业获取数据的方式：Python做爬虫的优势：爬虫违法么？ http 与 https 协议：什么是协议&am…

阅读更多...

如何在本地安装Flask并将其web界面发布到公网上远程访问协同开发

如何在本地安装Flask并将其web界面发布到公网上远程访问协同开发

目录前言 1. 安装部署Flask 2. 安装Cpolar内网穿透 3. 配置Flask的web界面公网访问地址 4. 公网远程访问Flask的web界面前言本篇文章讲解如何在本地安装Flask，以及如何将其web界面发布到公网上并进行远程访问。 Flask是目前十分流行的web框架，…

阅读更多...

推荐文章

最新文章