Online RL + IL : Active Policy Improvement from Multiple Black-box Oracles

ICML 2023
paper
code
紧接上一篇MAMBA,本文在同种问题设定下的在线模仿学习方法。

Intro

文章提出了一种新的模仿学习算法,名为 MAPS(Max-aggregation Active Policy Selection)和其变体 MAPS-SE(Max-aggregation Active Policy Selection with Active State Exploration),用于从多个次优的黑盒专家(oracle)中进行策略改进。这些专家在所有状态下并不总是相互超越,这就带来了一个挑战:如何主动决定使用哪个oracle,以及在哪个状态下使用。
文章的主要贡献包括:

  1. 提出了 MAPS 和 MAPS-SE 算法,它们通过主动选择要模仿的oracle并改进它们的价值函数估计来执行模仿学习。
  2. MAPS-SE 算法额外利用了一个主动状态探索标准,根据其状态值的不确定性来决定应该探索哪些状态。
  3. 提供了对 MAPS 和 MAPS-SE 的全面理论分析,并证明了它们在样本效率方面比现有的策略改进算法有优势。
  4. 通过在 DeepMind Control Suite 中的广泛控制任务上的实验,展示了 MAPS-SE 如何通过从多个 oracle 进行状态模仿学习显著加速策略优化。

Method

首先采用和MAMBA相同的对max-aggregations baseline的定义
在这里插入图片描述
MAMBA一个主要的问题其高样本复杂度。MAMBA 基于 f ^ max ⁡ \hat{f}^{\max} f^max 估计策略梯度,并且策略随机均匀地采样oracle,导致算法需要长时间的episode识别给定状态的最佳oracle,因为它的策略是在随机均匀地采样预言机。因此,MAMBA 容易出现大量误差累积。此外,MAMBA 在选择状态进行roll-out时没有控制梯度估计的逼近误差。因此,本工作旨在通过主动选择oracle并通过主动状态探索来控制状态的不确定性来减少估计器的逼近误差。

算法的两个主要组件:主动策略选择和主动状态探索。在主动策略选择中,MAPS 利用上置信界限(UCB)的概念来决定在线学习过程中应该选择哪个oracle进行展开。在主动状态探索中,MAPS-SE 基于当前状态的不确定性来决定是否继续使用学习者策略或切换到选定的oracle。

Active Policy Selection

提出结合UCB选择Oracle,在离散空间下有
k ⋆ = arg ⁡ max ⁡ k ∈ [ K ] V ^ k ( s t ) + 2 H 2 log ⁡ 2 δ N k ( s t ) , ( 4 ) k_{\star}=\arg\max_{k\in[K]}\hat{V}^{k}(s_{t})+\sqrt{\frac{2H^{2}\log\frac{2}{\delta}}{N_{k}\left(s_{t}\right)}}, (4) k=argk[K]maxV^k(st)+Nk(st)2H2logδ2 ,(4)
对连续空间下有
k ⋆ = arg ⁡ max ⁡ k ∈ [ K ] V ^ k ( s t ) + σ k ( s t ) . ( 5 ) k_{\star}=\arg\max_{k\in[K]}\hat{V}^{k}(s_{t})+\sigma_{k}\left(s_{t}\right). (5) k=argk[K]maxV^k(st)+σk(st).(5)
其中 V ^ π k ( s t ) ≐ 1 N k ( s t ) ∑ i = 1 N k ( s t ) ∑ j H λ j r ( s j , a j ) , ( 6 ) \hat{V}^{\pi_k}\left(s_t\right)\doteq\frac{1}{N_k\left(s_t\right)}\sum_{i=1}^{N_k\left(s_t\right)}\sum_{j}^{H}\lambda^jr\left(s_j,a_j\right), (6) V^πk(st)Nk(st)1i=1Nk(st)jHλjr(sj,aj),(6)

Active State Exploration

MAMBA 的第二个限制是没有对哪种状态下进行探索给出理由。在 MAPS 的基础上,提出了一种基于当前状态的不确定性度量的 MAPS (MAPS-SE) 主动状态探索变体,它决定是否在当前学习器策略中继续滚动或切换到最有希望的预言机,类似于 MAPS。这样,MAPS-SE 旨在主动选择最小化不确定性的状态。

在离散环境下由公式4选择出最优oracle.,连续空间下N无法计算,因此采用ensemble的价值网络估计,那么状态的不确定度由网络预测的标准差定义
Γ k ⋆ ( s t ) = { 2 H 2 log ⁡ 2 δ N k ⋆ ( s t ) discrete σ k ⋆ ( s t ) continuous \Gamma_{k_\star}\left(s_t\right)=\begin{cases}\sqrt{\frac{2H^2\log\frac{2}{\delta}}{N_{k_\star}\left(s_t\right)}}&\text{discrete}\\\sigma_{k_\star}\left(s_t\right)&\text{continuous}\end{cases} Γk(st)={Nk(st)2H2logδ2 σk(st)discretecontinuous

在当前状态下是否执行最优oracle由 Γ k ⋆ \Gamma_{k_\star} Γk与阈值 Γ s \Gamma_s Γs相关
Γ s = α ⋅ ( 2 H 2 log ⁡ 2 δ K + ( ∑ i 1 Δ i 2 ) log ⁡ ( K δ ) ) \Gamma_s=\alpha\cdot\left(\sqrt{\frac{2H^2\log\frac2\delta}{K+\left(\sum_i\frac1{\Delta_i^2}\right)\log\left(\frac K\delta\right)}}\right) Γs=α K+(iΔi21)log(δK)2H2logδ2
若不确定度大于阈值则采用oracle策略,小于则采用智能体策略进行rollout.

伪代码

在这里插入图片描述
其中第十行的优化目标与MAMBA中的目标相同
∇ ℓ ^ n ( π n ; λ ) = − H E s ∼ d π n , a ∼ π n ( ⋅ ∣ s ) [ ∇ log ⁡ π n ( a ∣ s ) A λ f ^ max ⁡ , π n ( s , a ) ] , (9) \nabla\hat{\ell}_{n}\left(\pi_{n};\lambda\right)=-H\mathbb{E}_{s\sim d^{\pi_{n}},a\sim\pi_{n}(\cdot|s)}\Big[\nabla\log\pi_{n}\left(a|s\right)A_{\lambda}^{\hat{f}^{\max},\pi_{n}}\left(s,a\right)\Big], \quad \text{(9)} ^n(πn;λ)=HEsdπn,aπn(s)[logπn(as)Aλf^max,πn(s,a)],(9)

Results

在这里插入图片描述

其他

霍夫丁不等式给出有界随机变量靠近其均值的概率有多大,也用来对算法的样本复杂度进行分析。
在这里插入图片描述

Hoeffding’s inequality
cs229
机器学习数学原理(8)——霍夫丁不等式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/703645.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SuperBox设计出图的效率提升!新增内门自动开孔和垫高支架图纸输出功能

越来越多的配电箱项目要求带内门,内门不仅可以有效减少外界灰尘、异物进入配电箱内部,保障配电箱正常运行,还能够隔离操作人员意外触摸导电部件,减少触电事故的发生。但是配电箱在配置内门后,会给设计带来更多的要求&a…

AI预测福彩3D采取887定位大底=23策略+杀断组+杀组选+杀和尾+杀和值012缩水测试5月15日预测第1弹

昨天与一位玩3D的彩友通过视频直播的形式聊了下,受益匪浅,给我提供了一些比较有价值的建议,比如,对于887的定位策略,方向是没问题的,但是8873的话,还是缺乏一定的命中率,如果88723&a…

中北大学软件学院javaweb实验三JSP+JDBC综合实训(一)__数据库记录的增加、查询

目录 1.实验名称2.实验目的3.实验内容4.实验原理或流程图5.实验过程或源代码(一)编程实现用户的登录与注册功能【步骤1】建立数据库db_news2024和用户表(笔者使用的数据库软件是navicat)【步骤2】实现用户注册登录功能(与上一实验报告不同的是&#xff0…

应用层之 HTTP 协议

HTTP 协议 HTTP (全称为 "超文本传输协议") 是一种应用非常广泛的 应用层协议。所谓 "超文本" 的含义, 就是传输的内容不仅仅是文本(比如 html, css 这个就是文本), 还可以是一些 其他的资源, 比如图片, 视频, 音频等二进制的数据。浏览器获取到网页&#…

EE-SX670 槽型光电开关 5MM 限位检测感应器 使用案例

EE-SX670是一款槽型光电开关,也被称为U形传感器或限位检测感应器。它是光电传感器中的一种,通过检测物体是否插入其感应槽来触发开关。这种传感器通常用于自动化生产线上的位置检测、对象计数以及安全设备中的运动检测。 EE-SX670作为一款高性能的光电传…

ESP8266-01模块继电器制作手机APP远程遥控智能开关

资料下载地址: ESP8266-01模块继电器制作手机APP远程遥控智能开关 这是一款使用ESP8266-01模块继电器制作手机APP远程遥控智能开关,它能实现远程遥控、定时、倒计时控制。电路简单,适合新手入门制作,下图是用这个智能开关制作的小…

2024年网络安全威胁

随着2024年的到来,数字世界的版图正在以前所未有的速度扩张,引领我们进入一个技术革新的新时代。然而,这飞速的发展同时也催生了一系列错综复杂的网络安全挑战。在这个数字平台与我们生活日益紧密交织的时代,深入了解这些新兴的威…

小米15曝光?可能会要稍微涨价

也许是感受到了智能机市场的逐渐复苏,最近各大手机品牌发售新品的速度明显加快了。从4月份的Redmi、一加,再到5月份一大堆vivo、OPPO新机型的发布。而近日,有关小米14即将发售的消息也是悄咪咪的放了出来。 去年发售的小米14可以说是狠狠地让…

CC工具箱使用指南:【界线导出Excel(一横)】

一、简介 群友定制工具。 这个工具的目的是将面要素的边界线的属性导出Excel。 给定的Excel模板如下: 结果需要输出每一段界一的起点、终点的坐标,这里以度分秒的方法表达。 每段界线的方位角以及方向,方向按16位方位角描述: …

如何使用AspectJ做切面,打印jar包中方法的执行日记

最近在工作中遇到一个redis缓存中的hash key莫名其妙被删除的问题,我们用了J2Cache,二级缓存用的是redis。hash key莫名其妙被删除又没有日志,就想到做一个切面在调用redis删除hash key的方法的时候,打印日志,并且把调…

Java项目:基于ssm框架实现的实验室耗材管理系统(B/S架构+源码+数据库+毕业论文+答辩PPT)

一、项目简介 本项目是一套基于ssm框架实现的实验室耗材管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 二、技术实现 jdk版本:1.8 …