安全强化学习笔记-编程知识

安全强化学习笔记

news/2025/3/9 8:39:36/文章来源:https://blog.csdn.net/qq_42806204/article/details/135296835

这里写自定义目录标题

参考资料
环境
算法
- CPO 2017 ICML
- PCPO 2019 ICLR
- FOCOPS 2020 NIPS
- CRPO 2021 ICML
- CUP 2022 NIPS

TRPO
如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎

参考资料

Safe Reinforcement Learning

安全/约束强化学习路线图（Safe RL Roadmap）编辑于 2023-05-06

Safe RL 的一点点总结编辑于 2021-04-25
1.CPO
2.RCPO
3.CPPO-PID
4.SafeLayer+DDPG
5.Safety-Gym

【安全强化学习· 一】Safe Reinforcement Learning（一）2020

Constrained reinforcement learning
constrained markov decision processes

PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者
NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
PKU-MARL/OmniSafe github
PKU-MARL/OmniSafe 作者就是CUP的作者
OpenAI/safety-starter-agents github

环境

safety-gym openai
Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.

safety-gymnasium
Bullet-Safety-Gym

算法

算法	算法	类型	时间	会议	引用量
CPO	约束策略优化	二阶	2017	ICML	1214
RCPO	奖励约束策略优化		2018	ICLR	452
PCPO	基于投影的约束策略优化	二阶	2019	ICLR	188
FOCOPS	策略空间中的一阶约束优化	一阶	2020	NIPS	87
CRPO	约束修正策略优化	Lagrange	2021	ICML	84
CUP	约束更新投影	一阶	2022	NIPS	18

CPO 2017 ICML

Constrained Policy Optimization 上海交通大学工学硕士
CPO omnisafe

PCPO 2019 ICLR

PCPO omnisafe

FOCOPS 2020 NIPS

FOCOPS slideslive
FOCOPS slideslive 短
FOCOPS omnisafe

CPO的问题
从当前策略获取样本轨迹时产生的错误。
泰勒近似引起的近似误差。
使用共轭法计算Fisher信息矩阵的逆矩阵会产生近似误差。

FOCOPS的优势
实现简单，只使用一阶近似。
简单的一阶法避免了泰勒法和共轭法引起的误差。
在实验中表现优于CPO。
不需要任何恢复步骤。

Two-stage Policy Update

CRPO 2021 ICML

CRPO slideslive
CRPO slideslive 短
在这里插入图片描述

CUP 2022 NIPS

强化学习 safe RL小综述从TRPO出发捋清CPO | CUP编辑于 2022-11-24

将GAE引入推导，得出了更紧的上下界
在具体的实现上做了改变，使得每次更新对计算资源的需求更小。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/343498.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

如何使用人工智能优化 DevOps？

如何使用人工智能优化 DevOps？

DevOps 和人工智能密不可分，影响着各种业务。DevOps 可以加快产品开发速度并简化现有部署的维护，而 AI 则可以改变整个系统的功能。DevOps团队可以依靠人工智能和机器学习来进行数据集成、测试、评估和发布系统。更重要的是，人工智能和机器学…

阅读更多...

Unity中BRP下的深度图

Unity中BRP下的深度图

文章目录前言一、在Shader中使用1、在使用深度图前申明2、在片元着色器中二、在C#脚本中开启摄像机深度图三、最终效果前言在之前的文章中，我们实现了URP下的深度图使用。 Unity中URP下使用屏幕坐标采样深度图在这篇文章中，我们来看一下BRP下深度…

阅读更多...

HarmonyOS——ArkUI状态管理

HarmonyOS——ArkUI状态管理

一、状态管理在声明式UI编程框架中，UI是程序状态的运行结果，用户构建了一个UI模型，其中应用的运行时的状态是参数。当参数改变时，UI作为返回结果，也将进行对应的改变。这些运行时的状态变化所带来的UI的重新渲染&…

阅读更多...

HTTP 常见协议：选择正确的协议，提升用户体验（下）

HTTP 常见协议：选择正确的协议，提升用户体验（下）

🤍 前端开发工程师（主业）、技术博主（副业）、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

阅读更多...

Java研学-分页查询

Java研学-分页查询

一分页概述 1 介绍将大量数据分段显示，避免一次性加载造成的内存溢出风险 2 真假分页 ① 真分页一次性查询出所有数据存到内存，翻页从内存中获取数据，性能高但易造成内存溢出 ② 假分页每次翻页从数据库中查询数据&#xff0c…

阅读更多...

《国产信创之光》专栏完毕感言

《国产信创之光》专栏完毕感言

☞ ░ 前往老猿Python博客 ░ https://blog.csdn.net/LaoYuanPython 前2天写完最后一篇计划中的国产信创之光专栏的博文《在统信UOS Linux下用opencv-python捕获摄像头输入保存到视频文件》，这个专栏计划中要发表的内容都发表了，专栏的写作任务顺利完成…

阅读更多...

如何准确评估数字化服务商的能力与水平？只需看这6大能力即可

如何准确评估数字化服务商的能力与水平？只需看这6大能力即可

本文主要帮大家解决3个核心问题： 如何找到真正适合自己的数字化服务产品和解决方案？如何准确评估数字化服务商的能力和水平？企业数字化转型解决方案服务商有哪些推荐？ 数字化浪潮汹涌来袭，全面推进数字化转型已经成为…

阅读更多...

Python入门0基础学习笔记

Python入门0基础学习笔记

1.编程之前在编写代码之前，还有两件事需要做： 安装 Python 解释器：计算机是没法直接读懂 Python 代码的，需要一个解释器作为中间的翻译，把代码转换成字节码之后再执行。 Python 是翻译一行执行一行。一般说的安装 …

阅读更多...

C++多线程学习[二]:线程的传参以及传参的一些坑

C++多线程学习[二]:线程的传参以及传参的一些坑

一、线程的传参 #include<iostream> #include<thread> #include<string> using namespace std; void threadtest(int a,double b,string str) {this_thread::sleep_for(100ms);cout << a << " " << b << " " &…

阅读更多...

仿真验证方法（1）——动态验证

仿真验证方法（1）——动态验证

一、概述 1.1 验证的目的和方法在现代集成电路设计中，验证所占工作量超过70%。验证要求真实而完备，它决定了设计的成败与成本。验证的目的原始描述是否正确？（代码） 逻辑功能是否正确？（功能…

阅读更多...

windows项目部署

windows项目部署

文章目录一、项目部署1.1 先准备好文件1.2安装jdk1.3 配置环境1.4 安装tomcat1.5 MySQL安装本机测试的话:远程连接测试 1.6 项目部署一、项目部署 1.1 先准备好文件 1.2安装jdk 下一步下一步下一步 1.3 配置环境变量名：JAVA_HOME 变量值：jdk的…

阅读更多...

笔试面试题——继承和组合

笔试面试题——继承和组合

📘北尘_：个人主页 🌎个人专栏:《Linux操作系统》《经典算法试题》《C》《数据结构与算法》 ☀️走在路上，不忘来时的初心文章目录一、什么是菱形继承？菱形继承的问题是什么？二、什么是菱形虚拟继承&am…

阅读更多...

推荐文章

最新文章