强化学习 - 策略梯度（Policy Gradient）-编程知识

强化学习 - 策略梯度（Policy Gradient）

news/2025/4/2 10:14:01/文章来源:https://blog.csdn.net/weixin_48878618/article/details/134336260

引言

强化学习常见的方法为基于值函数或者基于策略梯度。

值函数：值函数最优时得到最优策略，即状态s下，最大行为值函数maxQ(s,a)对应的动作。

但对于机器人连续动作空间，动作连续时，基于值函数，存在以下问题：

当动作空间很大，或者动作为连续集时，基于值函数的方法无法有效求解。
基于值函数的方法在进行策略改进时，需要针对每个状态行为求取行为值函数，以求得最优动作 $\frac{argmax}{a\in A}Q(s,a))$ ,这种情况下，把每一个状态行为严格地独立出来，求取某个状态下应该执行的行为是不切实际的。

总结：用值函数Q求解连续空间action，也能用但不好用，所以出现了，策略梯度法。

1.策略梯度

随机策略梯度：使用 $P (a,s;\theta )$ 直接逼近 $\pi (a,s)$ ,我们需要求得的就时神经网络参数θ。为了求解θ需要设计一个目标函数J(θ)=G(θ)（累计回报值），θ更新公式为：

此方法基于目标函数J(θ)的梯度进行策略参数更行。

J(θ)分为两种：

1.MC中，有完成的链条：

2.TD中，有步长限制时：

式中，是基于策略生成的关于状态s的分布

进一步就得到了梯度的表达式：

2.Actor

策略梯度就是AC中的A

Actor：从下图可以看出，就是输入智能体观察到的图像（对计算机而言就是矩阵，向量），输出智能体可能采取的动作概率分布。

进一步我们要衡量Actor的优劣，基于Actor可以得到一系列回报，计算平均回报，比较策略的优劣R就是上文的J。

然后我们想求得最优的Actor，（R就是上文J的延深），使用梯度上升法，进而得到：

3.延深

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/174517.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

RocketMQ(二)：基础API

RocketMQ(二)：基础API

Spring源码系列文章 RocketMQ(一)：基本概念和环境搭建 RocketMQ(二)：基础API 目录一、RocketMQ快速入门1、生产者发送消息2、消费者接受消息3、代理者位点和消费者位点二、消费模型特点1、同一个消费组的不同消费者，订阅主题必须相同2、不…

阅读更多...

红队专题-从零开始VC++C/S远程控制软件RAT-MFC-超级终端

红队专题-从零开始VC++C/S远程控制软件RAT-MFC-超级终端

红队专题招募六边形战士队员[16]超级终端(1)消息宏的定义映射cmdshell.cpp重载构造函数Onsize 随窗口大小事件回车键发送命令添加字符转换类 StringToTransform [17]超级终端(2)接受命令创建m_cmd c类发送接收客户端远端进程关闭招募六边形战士队员一起学习代码审计、安…

阅读更多...

4.CentOS7安装MySQL5.7

4.CentOS7安装MySQL5.7

CentOS7安装MySQL5.7 2023-11-13 小柴你能看到嘛哔哩哔哩视频地址 https://www.bilibili.com/video/BV1jz4y1A7LS/?vd_source9ba3044ce322000939a31117d762b441 一.解压 tar -xvf mysql-5.7.26-linux-glibc2.12-x86_64.tar.gz1.在/usr/local解压 tar -xvf mysql-5.7.44-…

阅读更多...

Sentinel浅层介绍（上）

Sentinel浅层介绍（上）

一、概述 Sentinel是阿里开源的一款面向分布式、多语言异构化服务架构的流量治理组件。主要以流量为切入点，从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开发者保障微服务的稳定性。二、核心概念 1、资源资…

阅读更多...

11-09 周四 CNN 卷积神经网络基础知识

11-09 周四 CNN 卷积神经网络基础知识

11-09 周四 CNN 卷积神经网络时间版本修改人描述2023年11月9日09:38:12V0.1宋全恒新建文档简介学习一下CNN，卷积神经网络。使用的视频课程。视觉相关的任务： 人脸识别卷积网络与传统网络的区别： <img altimage-20231109094400591 s…

阅读更多...

洗地机和扫地机怎么选?洗地机品牌怎么选?2023旗舰洗地机总结

洗地机和扫地机怎么选?洗地机品牌怎么选?2023旗舰洗地机总结

洗地机是一种可以一次性完成吸尘、拖地、洗地以及除菌的多功能智能清洁神器，它可以轻松的应对各种地面的干湿垃圾，提高地面清洁同时让清洁过程变得更加高效，但是目前的洗地机那么多，我们怎么挑选到一款合适的洗地机呢？…

阅读更多...

关于值传递和引用传递的问题记录

关于值传递和引用传递的问题记录

目录 1. 问题概述 1.1 测试 1.2 结果 2. ArrayList和Arrays.ArrayList 1. 问题概述最近忙着写论文很久没更新了，趁现在有时间简单记录一下最近遇到的一个坑。对于Java中的List<>类型的对象，按我以前理解是引用传递，但有一点要注…

阅读更多...

软件工程分析报告05体系结构说明书——基于Paddle的肝脏CT影像分割

软件工程分析报告05体系结构说明书——基于Paddle的肝脏CT影像分割

基于Paddle的肝脏CT影像分割系统的体系结构说明书目录 HIPO图 H图 Ipo图软件结构图面向数据流的体系结构设计图程序流程图 S图用PDL语言描述的伪代码 HIPO图 H图 Ipo图软件结构图面向数据流的体系结构设计图程序流程图 S图 PAD图用PDL语言描述的伪代码 (1)…

阅读更多...

【Transformer从零开始代码实现 pytoch版】（六）模型基本测试运行

【Transformer从零开始代码实现 pytoch版】（六）模型基本测试运行

模型基本测试及运行 （1）构建数据生成器 def data_generator(V, batch, num_batch):""" 用于随机生成copy任务的数据:param V: 随机生成数字的最大值1:param batch: 每次输送给模型更新一次参数的数据量:param num_batch: 输送多少次完成…

阅读更多...

自媒体项目详述

自媒体项目详述

总体框架本项目主要着手于获取最新最热新闻资讯，以微服务构架为技术基础搭建校内仅供学生教师使用的校园新媒体app。以文章为主线的核心业务主要分为如下子模块。自媒体模块实现用户创建功能、文章发布功能、素材管理功能。app端用户模块实现文章搜索、文章点赞、…

阅读更多...

【论文阅读】CTAB-GAN: Effective Table Data Synthesizing

【论文阅读】CTAB-GAN: Effective Table Data Synthesizing

论文地址：[2102.08369] CTAB-GAN: Effective Table Data Synthesizing (arxiv.org) 介绍虽然数据共享对于知识发展至关重要，但遗憾的是，隐私问题和严格的监管（例如欧洲通用数据保护条例 GDPR）限制了其充分发挥作用。…

阅读更多...

PySide/PYQT如何用Qt Designer和代码来设置文字属性，如何设置文字颜色？

PySide/PYQT如何用Qt Designer和代码来设置文字属性，如何设置文字颜色？

文章目录 📖 介绍 📖🏡 环境 🏡📒 实现方法 📒📝 Qt Designer设置📝 代码📖 介绍 📖 本人介绍如何使用Qt Designer/代码来设置字体属性（包含字体颜色） 🏡 环境 🏡 本文使用Pyside6来进行演示📒 实现方法 📒 📝 Qt Designer设置首先打开Qt De…

阅读更多...

推荐文章

最新文章