论文速读记录 | 2025.04-编程知识

论文速读记录 | 2025.04

news/2025/4/2 23:42:59/文章来源:https://www.cnblogs.com/moonout/p/18804176

On the Role of Discount Factor in Offline Reinforcement Learning
Rethinking Reward Modeling in Preference-based Large Language Model Alignment
Few-Shot Preference Learning for Human-in-the-Loop RL
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
Data Center Cooling System Optimization Using Offline Reinforcement Learning
SMAC-R1（？）
SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

On the Role of Discount Factor in Offline Reinforcement Learning

arxiv：https://arxiv.org/abs/2110.09796
来源：师兄的 ICML 2022 文章。
主要内容：

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

arxiv：https://arxiv.org/abs/2411.04991
OpenReview：https://openreview.net/forum?id=rfdblE10qm
来源：ICLR 2025 oral。
主要内容：
- 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model，而是直接训一个分类器，学习一个 (x,y) 是好的还剩坏的，然后使用分类器的概率 logit 作为 RLHF 的 reward。
- 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\)，而非把成对比较 \((x, y^+, y^-)\) 打乱（？）
- 实验是否过于 toy（？）理论大概说了什么（？）

Few-Shot Preference Learning for Human-in-the-Loop RL

arxiv：https://arxiv.org/abs/2212.03363
来源：原来读过的文章。
主要内容：
- 这是一篇 CoRL 2022 的 8 页论文，关注传统的 PbRL。

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

arxiv：https://arxiv.org/abs/1703.03400
来源：这篇工作（MAML）是上一篇 few-shot preference learning 用到的主要技术。（发现 MAML 的三个作者是 Chelsea Finn、Pieter Abbeel 和 Sergey Levine，好家伙…）
主要内容：

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

open review：https://openreview.net/forum?id=2iYVBqRHK4
来源：合作者推荐的文章。
主要内容：
- preference-based index policy（？）

Data Center Cooling System Optimization Using Offline Reinforcement Learning

arxiv：https://arxiv.org/pdf/2501.15085
来源：xianyuan zhan 组的新文章。
主要内容：
- T-symmetry。

SMAC-R1（？）

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

arxiv：https://arxiv.org/abs/2407.04752
来源：ICLR 2025 poster。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/909530.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【攻防世界】Hidden-Message

⭕、知识点流量分析/端口号隐写/tshark/json文件处理一、题目二、解法 1、端口号个位呈现有规律的01交替，可能隐藏信息。 2、为便于提取信息，使用kali的tshark对其进行转存 tshark -r input.pcap -T json > output.txt注意在使用tshark时应避免使用root账户否则会出现如…

022 props组件交互

.vue 的文件，就是一个组件，每个.vue 文件就是每个页面html 的时候，每个页面都是一个 htmlvue2 和 vue3 的生命周期钩子是不同的components：常用的组件，公共的组件views：用来存放页面的新建项目，删除HelloWorld.vue components也删除views删除这个index.js删除这两页面…

客户端打开BI报表提示 Your current browser is not supported”

win7的打开会报这个问题， win11可以正常打开，应该是环境差异导致。

Linux-常用命令（3）

Linux-常用命令（3）Linux常用命令查看文件 cat命令 cat命令可以创建一个或者多个文件、查看文件内容、连接文件，常用于查看文件内容 cat 文件名 //显示文件内容 cat -n 文件名 //显示文件内容,并显示行号 cat - 文件名 //显示文件内容（包括不可见字符）系统时间 date命令…

【EI】机器人与传感器网络国际会议（RoSeN 2025）

第一届机器人与传感器网络国际会议（RoSeN 2025）将于2025年5月16-18日在贵阳举行，会议将围绕机器人展开的在机器人、人机交互、传感、智能控制等相关研究领域，邀请国内外数位在此领域学术卓越的学者专家做相关致辞与报告，共同探讨机器人发展最新发展方向及行业前沿动态。会…

[转]玩客云刷armbian后根目录扩展

地址:玩客云刷armbian后根目录扩展_IT码迹最近拼夕夕搞了个玩客云，自己懒得刷机(太麻烦，还要绝育什么的)所以直接买的刷好的，商家送了个U盘32G已经做好了镜像。商家镜像刷了不少东西除了openwrt，其他几个docker镜像都是armbian比较好用的。不过在我要安装其他插件的时候发…

生成未来：解码智能技术驱动的产业革命

在人工智能浪潮的推动下，AI生图与视频技术正以惊人的速度重塑人类的生产方式。从一张图片的生成到一段视频的秒级渲染，技术的突破不仅解放了生产力，更催生了全新的商业生态。这场变革的核心，在于用算法替代重复劳动，以智能激发无限创意，而这一切仅仅是开端。一、技术突破…

云终端远程自动调用开关机功能

云桌面项目由于缺少一键关机和开机功能，通过Linux实现自动化调用开机和关机 1、收集所有终端信息的MAC地址收集方式可以采用ipscan25.exe也可以通过cmd下arp -a方式收集MAC地址，同时记录MAC可以IP地址的对应关系。2、所有终端安装openssh使用系统自带或者下载OpenSSH-Win64-v…

20242801 2024-2025-2 《网络攻防实践》第5次作业

一、实验内容配置linux系统防火墙，并设置相关过滤规则；使用snort入侵检测工具进行离线扫描，并分析生成的报警日志。分析Honeywell的防火墙和IDS/IPS配置规则。二、实验过程（一）防火墙配置 1、过滤ICMP包 ping命令通过设置icmp实现，所以我们使用ping命令来验证li…

“电脑玩手机神器Scrcpy！投屏/录屏/打游戏，1分钟搞定安装教程”

前言什么是 Scrcpy？Scrcpy 是一款开源的 Android 屏幕镜像与控制工具，由 Genymobile 开发。它可以通过 USB 或 WiFi 将 Android 设备的屏幕实时显示到电脑上，并允许通过电脑的键盘和鼠标直接操作 Android 设备。 scrcpy 能帮你干啥？在电脑上玩手机——刷抖音、打游戏、聊微…

项目结构新建一个项目文件夹通过 prisma init --datasource-provider mysql 构建prisma项目代码编写main.tsimport "reflect-metadata"; import { InversifyExpressServer } from "inversify-express-utils"; import { Container } from "inversi…

逆天崛起！疆鸿智能EtherCAT转TCP/IP协议如何赋能食品加工厂数字化转型（建议收藏噢~）

在食品加工行业，智能化浪潮正以前所未有的速度重塑传统生产模式。从原料分拣到成品包装，每一道工序都对设备协同精度和数据响应速度提出严苛要求。然而，当企业投入巨资升级智能化设备后，却发现不同协议架构的设备如同操着不同方言的"生产孤岛"，尤其是EtherCAT总…