强化学习(GPS)

GPS——Guided Policy Search引导策略搜索  基于模型的强化学习算法

GPS目前被作为基础算法广泛应用于各种强化学习任务中,其出发点在于纯粹的策略梯度方法在更新参数时不会用到环境模型因而属于一种无模型强化学习算法。由于没有利用任何环境的内在属性,使得其训练只能完全依靠试错,效率较低。

开环方法:开放循环控制或非反馈控制,是一种控制策略,其中系统的输出或行为仅依赖于预设的指令或计划,而不考虑实际输出或环境状态的变化。在开环控制中,一旦确定了控制策略,就会一直执行下去,不会根据系统的实际表现进行调整。

闭环方法:反馈控制,涉及到系统通过传感器持续监测器输出或环境状态,并将这些信息反馈到控制系统中,以调整其输入或行为。闭环控制能够自动纠正偏差,因此对环境变化和不确定性有更好的适应性。

路径优化算法是一个开环方法,策略梯度是一个闭环方法,将两者相结合,利用路径优化算法的输出结果来指导策略梯度方法的训练过程,从而提高策略梯方法的效率,即GPS算法。

GPS的基本结构

GPS分为两个模块:左侧是最优控制,右侧是策略搜索模块

最优控制器:在该模块中,控制器会运行当前的控制策略,并产生数据,然后基于这些产生的数据利用机器学习的方法,例如回归的方法拟合控制方法。有了控制方程就可以利用经典的最优控制的方法来求解当前的最优控制率。经典的最优控制的方法包括变分法、庞特里亚金最大值原理和动态规划的方法。在GPS中,最常用的是动态规划的方法,如LQR(线性二次型调节器)、LQG(线性二次高斯调节器)、iLQG(迭代线性二次高斯调节器)、DDP(微分动态规划)

监督学习模块:需要的输入数据和标签数据分别由最优控制器模块的实际轨迹数和最优控制率来提供,参数更新的方法为随机梯度下降法。

GPS=最优控制器+监督学习,+是耦合关系,体现为交互性

GPS算法是通过约束条件来实现最优控制器与监督学习网络之间的交互的,约束条件的意思是最优控制器所产生的分布应该与监督神经网络所产生的分布相同,即最优控制器的控制率应该与监督神经网络的控制率在采样点相同

GPS算法通常包括的步骤:

1、策略初始化:初始策略可以是基于专家知识手动设计,也可以是简单的神经网络

2、数据搜集:使用当前策略在环境中执行一系列的试验,收集状态-动作对,这些状态-动作对就是所谓的“采样点”

3、策略评估:在这些采样点上,使用最优控制方法(如:ILQR)来找到在当前策略下,从每个状态到下一个状态的最优动作,这些最优动作形成一个行的动作分布。

4、监督学习:使用策略评估中得到的最优动作作为标签,训练一个监督学习网络来近似最优策略,这里的监督学习网络输出的动作应该尽可能接近最优控制器输出的动作。

5、策略改进:将监督学习网络作为新的策略,并重复上述步骤,直到网络的输出动作与最优控制器的输出动作在采样点上非常接近,即两个分布相同或足够相似。

监督学习网络通过约束条件参与到最优控制器的优化,而优化好的控制器通过提供监督学习的标签来指导监督神经网络进行策略搜索。

GPS算法的缺点:

1、计算复杂性:GPS算法在策略评估和策略改进步骤中使用了迭代线性二次调节器或其他优化技术,这些计算通常是非常复杂的,尤其是高纬状态和动作空间中。

2、数据需求:GPS算法需要大量的数据来准确估计策略梯度,尤其是在复杂环境中,这意味着在实际应用中可能需要大量的试错过程,增加时间成本。

3、局部最优:采用梯度下降法会陷入局部最优

4、对模型精度的依赖:GPS算法通常假设环境模型是已知的或者可以通过监督学习来准确估计的,但是在许多实际问题中,环境模型可能是未知的,很难准确估计,可能会导致算法性能的下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/484221.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

stm32cubemx简单介绍

(本文为简单介绍,内容源于网络) STM32CubeMX是STMicroelectronics推出的一款用于STM32微控制器系列的图形化配置工具,旨在简化嵌入式软件开发过程。本文将对STM32CubeMX进行简要介绍,包括其功能特点、优势以及在嵌入式…

猫头虎分享已解决Bug || RuntimeError: size mismatch, m1: [32 x 100], m2: [500 x 10]

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

2.22学习总结

1.营救 2.租用游艇 3.砍树 4.买礼物 5.刷题统计 砍树https://www.dotcpp.com/oj/problem3157.html 题目描述 给定一棵由 n 个结点组成的树以及 m 个不重复的无序数对 (a1, b1), (a2, b2), . . . , (am, bm),其中 ai 互不相同,bi 互不相同,ai…

Spring 类型转换、数值绑定与验证(一)— DataBinder

DataBinder 是Spring用于数据绑定、类型转换及验证的类。使用场景有:1)xml配置文件定义bean,Spring 内部使用DataBinder 来完成属性的绑定;2)Web请求参数绑定,在Spring MVC 中,Controller的方法参数通常会自…

还在为选择办公软件而烦恼吗?不妨试试ONLYofficeV8.0

目录 一.优势一DOC 1.丰富的文字处理功能 2.按用户既定的规则编辑 3.使用AI助手 4.保持创意 5.深入分析文本 6.改善团队工作流程 7.轻松对比文档 8.扩展编辑功能 二.优势二sheet 1.数据分析 2.轻松实现精准计算 3.轻松分析数据 4.可视化呈现数据 5.增强团队协作…

opencv图像放缩与插值-resize函数

在OpenCV中,resize函数用于对图像进行尺寸调整(放大或缩小),这个过程中通常需要用到插值方法来计算新尺寸下图像像素的值。插值方法对于放缩的质量有着直接影响。 void resize(InputArray src, OutputArray dst, Size dsize, dou…

谷粒商城篇章9 ---- P248-P261/P292-P294 ---- 消息队列【分布式高级篇六】

目录 1 消息队列(Message Queue)简介 1.1 概述 1.2 消息服务中两个重要概念 1.3 消息队列主要有两种形式的目的地 1.4 JMS和AMQP对比 1.5 应用场景 1.6 Spring支持 1.7 SpringBoot自动配置 1.7 市面上的MQ产品 2 RabbitMQ 2.1 RabbitMQ简介 2.1.1 RabbitMQ简介 2…

软件测试之测试用例超详细总结

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、通用测试用例八要素   1、用例编号;    2、测试项目;   3、测…

应对电脑重新分区文件消失:预防措施、常见成因与恢复关键要点

电脑重新分区文件不见了是一个常见的问题,通常发生在用户对硬盘进行重新分区、格式化或操作系统重装过程中,可能导致已存在的文件和数据暂时不可见或永久丢失。 **预防文件丢失的方法:** 1. **提前备份**: 在进行任何重大磁盘操作前&#xff…

求职面试经验分享,提高求职成功率【文章底部添加可得内推码汇总表】

目录 求职经验分享 底部内推码汇总表 求职经验分享 在如今激烈的职场竞争中,一场成功的求职面试往往是决定未来职业生涯的关键一步。随着招聘流程的不断演进,求职者需要更多地准备,展现自己的优势。本文将分享一些求职面试经验,…

css知识:盒模型盒子塌陷BFC

1. css盒模型 标准盒子模型,content-box 设置宽度即content的宽度 width content 总宽度content(width设定值) padding border IE/怪异盒子模型,border-box width content border padding 总宽度 width设定值 2. 如何…

2000-2022年各省城乡收入差距泰尔指数数据(原始数据+计算过程+结果)

2000-2022年各省城乡收入差距泰尔指数数据(原始数据计算过程结果) 1、时间:2000-2022年 2、指标:地区、居民可支配收入(元)、农村家庭可支配(元)、城市家庭可支配(元&a…