基于策略的强化学习

news/2025/3/19 14:46:10/文章来源:https://www.cnblogs.com/lizhongzheng/p/18781028

基于策略的强化学习

1. 策略函数近似(Policy Function Approximation)

策略函数 π(a∣s)

  • 策略函数是一个概率密度函数,它根据当前状态 s 输出在该状态下采取每个可能动作 a 的概率。
  • 在有限的状态和动作空间中,可以直接学习这个函数。但在连续动作空间或状态空间非常大时,直接学习变得不切实际。

策略网络 π(a∣s;θ)

  • 使用神经网络来近似策略函数,其中 θ 是网络的可训练参数。
  • 网络输入是状态 s,输出是所有可能动作的概率分布。
  • 使用Softmax激活函数确保输出的概率和为1。

2. 状态价值函数近似(State-Value Function Approximation)

动作价值函数 Q(s,a)

  • 定义为从状态 s 开始并采取动作 a 的预期折扣回报。
  • 动作价值函数依赖于策略函数和状态转移概率。

状态价值函数 V(s)

  • 定义为在状态 s 下,按照策略 π 采取动作的预期折扣回报。
  • 可以通过对动作价值函数 Q(s,a) 进行期望计算得到。

3. 基于策略的强化学习(Policy-Based Reinforcement Learning)

策略梯度(Policy Gradient)

  • 目标是学习参数 θ,以最大化期望回报 J(θ)=E[V(S;θ)]。
  • 使用策略梯度上升法来更新参数 θ

策略梯度的计算

  • 策略梯度是状态价值函数 V(s;θ) 关于 θ 的导数。

  • 通过链式法则和期望,可以推导出策略梯度的表达式:

    image-20250319143514318
  • 这个表达式表明,策略梯度可以通过对每个动作的概率的对数梯度与该动作的价值的乘积的期望来计算。

4. 离散和连续动作空间中的策略梯度计算

离散动作空间

  • 使用策略梯度的第一种形式,直接对每个动作的概率进行求和。

连续动作空间

  • 使用策略梯度的第二种形式,通过期望来计算梯度。
  • 通过从策略分布中采样动作,并计算这些动作的梯度,可以得到策略梯度的无偏估计。

5. 使用策略梯度更新策略网络

算法步骤

  1. 观察状态 s
  2. 根据策略网络 π(as;θ) 随机采样动作 a
  3. 计算 Q(s,a) 的估计值(可以通过某种方法得到)。
  4. 对策略网络进行微分,得到 image-20250319144144867
  5. 计算(随机)策略梯度:image-20250319144115499
  6. 更新策略网络:θnew=θ+β

具体方法

  • REINFORCE:通过玩完整个游戏来生成轨迹,并使用折扣回报来近似 Q(s,a)。
  • Actor-Critic方法:使用一个神经网络来近似 Q(s,a),这将在文件4中详细讨论。

6. 总结

  • 基于策略的学习:如果已知一个好的策略函数 π,智能体可以根据该策略随机采样动作 aπ(s)。
  • 策略网络:通过策略梯度算法学习策略网络,以最大化期望回报。
  • 策略梯度算法:学习参数 θ,以最大化 E[V(S;θ)]。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/901528.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考数据库工程师

软考数据库工程师 重点 事务调度 1. 串行调度 多个事务依次(顺序)串行执行,且只有当一个事务的所有操作都执行完成才执行另一个事务的所有操作 2. 可串行化调度:并发调度 多个事务并发执行是正确的。当且仅当其并发结果与某一次序串行地执行的结果相同 并发问题 1. 丢失修改…

为Gazebo中的iris无人机添加realsense D435i相机

本机环境和实现目标 本机的系统位ubuntu20.04,已安装有ros noetic和PX4_Firmware,能够在Gazebo的环境中进行无人机的仿真。因为后续需要用实验室搭载有realsense D435i相机的无人机进行集群跟踪与避障的实验,准备为Gazebo中的iris无人机搭载上D435i相机先进行仿真验证。 注意…

信创产业2025白皮书:国产替代率突破40%的7大征兆

开篇:一场静默的产业革命正在发生 2025年的春天,当全球科技巨头还在为量子计算和元宇宙布局时,中国信创产业已悄然完成蜕变。工信部最新数据显示,国产基础软硬件在重点行业渗透率突破40%大关,这场以"自主可控"为底色的技术革命,正通过七大显著征兆宣告着中国IT…

aaa1

Uniapp、uniappx笔记 App平台 云端打包 Uniappx原生SDK android studio原生工程配置https://doc.dcloud.net.cn/uni-app-x/native/use/android.html 配置uts插件 教程 https://doc.dcloud.net.cn/uni-app-x/native/use/androiduts.html uts插件资源位于unpackage/resource/app-…

wpa_supplicant/hostapd --- 控制接口库

官网: https://w1.fi/wpa_supplicant/只需要源码的这两个文件:

go-gRPC微服务调用

协议介绍 RPC协议RPC(远程过程调用协议),通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC假定某些协议的存在,例如TCP/UDP等,为通信程序之间携带信息数据。在OSI网络七层模型中,RPC跨越了传输层和应用层,RPC使得开发包括网络分布式多程序在内的应用…

突破性技术:制药冻干机实现EtherCAT与Profinet网关模块无缝监控集成

案例分享:冻干机 EtherCAT 转 Profinet 实现温湿度监控 在现代医药生产过程中,冻干机作为关键设备,对温湿度的控制与监测尤为重要。某医药企业在其冻干机系统升级中,面临一个典型的通讯挑战:主控制系统采用 EtherCAT 协议,而现场的温湿度监控系统及其他过程控制设备则基于…

java-JNDI(二)-高版本绕过

JNDI 高版本的绕过 为了防止 JNDI 攻击,Oracle 对 JNDI 的远程类加载漏洞(如 LDAP 或 RMI 协议的远程代码执行(RCE))进行了限制 com.sun.jndi.rmi.object.trustURLCodebase=false com.sun.jndi.cosnaming.object.trustURLCodebase=false com.sun.jndi.ldap.object.trustUR…

tile

dsfTechnorati Tags: gjhgsdhttp://dfdfdfddfdfdfdsfdfdf

电视机顶盒刷机,更改固件包教程

这几天捣鼓了很久的刷机包,终于学会了怎么把已经弄好的刷机包,更改成自己想要的桌面。下面是我整理好的详细教程,本教程所需工具:刷机包大全、MLK软件、mumu模拟器 刷机包大全: 链接: https://pan.baidu.com/s/1G0on4sV9QmpxPXLUSN5ttQ?pwd=5279 提取码: 5279 一.确定机顶…