论文速读记录 | 2025.04

news/2025/4/2 23:42:59/文章来源:https://www.cnblogs.com/moonout/p/18804176


目录
  • On the Role of Discount Factor in Offline Reinforcement Learning
  • Rethinking Reward Modeling in Preference-based Large Language Model Alignment
  • Few-Shot Preference Learning for Human-in-the-Loop RL
  • Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
  • DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
  • Data Center Cooling System Optimization Using Offline Reinforcement Learning
  • SMAC-R1(?)
  • SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking


On the Role of Discount Factor in Offline Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2110.09796
  • 来源:师兄的 ICML 2022 文章。
  • 主要内容:

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

Few-Shot Preference Learning for Human-in-the-Loop RL

  • arxiv:https://arxiv.org/abs/2212.03363
  • 来源:原来读过的文章。
  • 主要内容:
    • 这是一篇 CoRL 2022 的 8 页论文,关注传统的 PbRL。

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

  • arxiv:https://arxiv.org/abs/1703.03400
  • 来源:这篇工作(MAML)是上一篇 few-shot preference learning 用到的主要技术。(发现 MAML 的三个作者是 Chelsea Finn、Pieter Abbeel 和 Sergey Levine,好家伙…)
  • 主要内容:

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

  • open review:https://openreview.net/forum?id=2iYVBqRHK4
  • 来源:合作者推荐的文章。
  • 主要内容:
    • preference-based index policy(?)

Data Center Cooling System Optimization Using Offline Reinforcement Learning

  • arxiv:https://arxiv.org/pdf/2501.15085
  • 来源:xianyuan zhan 组的新文章。
  • 主要内容:
    • T-symmetry。

SMAC-R1(?)

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

  • arxiv:https://arxiv.org/abs/2407.04752
  • 来源:ICLR 2025 poster。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/909530.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【攻防世界】Hidden-Message

⭕、知识点 流量分析/端口号隐写/tshark/json文件处理 一、题目二、解法 1、端口号个位呈现有规律的01交替,可能隐藏信息。 2、为便于提取信息,使用kali的tshark对其进行转存 tshark -r input.pcap -T json > output.txt注意在使用tshark时应避免使用root账户 否则会出现如…

022 props组件交互

.vue 的文件,就是一个组件,每个.vue 文件就是每个页面html 的时候,每个页面都是一个 htmlvue2 和 vue3 的生命周期钩子是不同的components:常用的组件,公共的组件views:用来存放页面的新建项目,删除HelloWorld.vue components也删除views删除 这个index.js删除 这两页面…

客户端打开BI报表提示 Your current browser is not supported”

win7的打开会报这个问题, win11可以正常打开, 应该是环境差异导致。

Linux-常用命令(3)

Linux-常用命令(3)Linux常用命令 查看文件 cat命令 cat命令可以创建一个或者多个文件、查看文件内容、连接文件,常用于查看文件内容 cat 文件名 //显示文件内容 cat -n 文件名 //显示文件内容,并显示行号 cat - 文件名 //显示文件内容(包括不可见字符)系统时间 date命令…

【EI】机器人与传感器网络国际会议(RoSeN 2025)

第一届机器人与传感器网络国际会议(RoSeN 2025)将于2025年5月16-18日在贵阳举行,会议将围绕机器人展开的在机器人、人机交互、传感、智能控制等相关研究领域,邀请国内外数位在此领域学术卓越的学者专家做相关致辞与报告,共同探讨机器人发展最新发展方向及行业前沿动态。会…

[转]玩客云刷armbian后根目录扩展

地址:玩客云刷armbian后根目录扩展_IT码迹最近拼夕夕搞了个玩客云,自己懒得刷机(太麻烦,还要绝育什么的)所以直接买的刷好的,商家送了个U盘32G已经做好了镜像。 商家镜像刷了不少东西除了openwrt,其他几个docker镜像都是armbian比较好用的。不过在我要安装其他插件的时候发…

生成未来:解码智能技术驱动的产业革命

在人工智能浪潮的推动下,AI生图与视频技术正以惊人的速度重塑人类的生产方式。从一张图片的生成到一段视频的秒级渲染,技术的突破不仅解放了生产力,更催生了全新的商业生态。这场变革的核心,在于用算法替代重复劳动,以智能激发无限创意,而这一切仅仅是开端。 一、技术突破…

云终端远程自动调用开关机功能

云桌面项目由于缺少一键关机和开机功能,通过Linux实现自动化调用开机和关机 1、收集所有终端信息的MAC地址收集方式可以采用ipscan25.exe也可以通过cmd下arp -a方式收集MAC地址,同时记录MAC可以IP地址的对应关系。2、所有终端安装openssh使用系统自带或者下载OpenSSH-Win64-v…

20242801 2024-2025-2 《网络攻防实践》第5次作业

一、实验内容 ​ 配置linux系统防火墙,并设置相关过滤规则;使用snort入侵检测工具进行离线扫描,并分析生成的报警日志。分析Honeywell的防火墙和IDS/IPS配置规则。 二、实验过程 (一)防火墙配置 1、过滤ICMP包 ​ ping命令通过设置icmp实现,所以我们使用ping命令来验证li…

“电脑玩手机神器Scrcpy!投屏/录屏/打游戏,1分钟搞定安装教程”

前言 什么是 Scrcpy?Scrcpy 是一款开源的 Android 屏幕镜像与控制工具,由 Genymobile 开发。它可以通过 USB 或 WiFi 将 Android 设备的屏幕实时显示到电脑上,并允许通过电脑的键盘和鼠标直接操作 Android 设备。 scrcpy 能帮你干啥?在电脑上玩手机——刷抖音、打游戏、聊微…

项目架构(下)--- 整合编写框架具体代码

项目结构 新建一个项目文件夹 通过 prisma init --datasource-provider mysql 构建prisma项目 代码编写main.tsimport "reflect-metadata"; import { InversifyExpressServer } from "inversify-express-utils"; import { Container } from "inversi…

逆天崛起!疆鸿智能EtherCAT转TCP/IP协议如何赋能食品加工厂数字化转型(建议收藏噢~)

在食品加工行业,智能化浪潮正以前所未有的速度重塑传统生产模式。从原料分拣到成品包装,每一道工序都对设备协同精度和数据响应速度提出严苛要求。然而,当企业投入巨资升级智能化设备后,却发现不同协议架构的设备如同操着不同方言的"生产孤岛",尤其是EtherCAT总…