目录
- On the Role of Discount Factor in Offline Reinforcement Learning
- Rethinking Reward Modeling in Preference-based Large Language Model Alignment
- Few-Shot Preference Learning for Human-in-the-Loop RL
- Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
- DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
- Data Center Cooling System Optimization Using Offline Reinforcement Learning
- SMAC-R1(?)
- SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
On the Role of Discount Factor in Offline Reinforcement Learning
- arxiv:https://arxiv.org/abs/2110.09796
- 来源:师兄的 ICML 2022 文章。
- 主要内容:
Rethinking Reward Modeling in Preference-based Large Language Model Alignment
- arxiv:https://arxiv.org/abs/2411.04991
- OpenReview:https://openreview.net/forum?id=rfdblE10qm
- 来源:ICLR 2025 oral。
- 主要内容:
- 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
- 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
- 实验是否过于 toy(?)理论大概说了什么(?)
Few-Shot Preference Learning for Human-in-the-Loop RL
- arxiv:https://arxiv.org/abs/2212.03363
- 来源:原来读过的文章。
- 主要内容:
- 这是一篇 CoRL 2022 的 8 页论文,关注传统的 PbRL。
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
- arxiv:https://arxiv.org/abs/1703.03400
- 来源:这篇工作(MAML)是上一篇 few-shot preference learning 用到的主要技术。(发现 MAML 的三个作者是 Chelsea Finn、Pieter Abbeel 和 Sergey Levine,好家伙…)
- 主要内容:
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
- open review:https://openreview.net/forum?id=2iYVBqRHK4
- 来源:合作者推荐的文章。
- 主要内容:
- preference-based index policy(?)
Data Center Cooling System Optimization Using Offline Reinforcement Learning
- arxiv:https://arxiv.org/pdf/2501.15085
- 来源:xianyuan zhan 组的新文章。
- 主要内容:
- T-symmetry。
SMAC-R1(?)
SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- arxiv:https://arxiv.org/abs/2407.04752
- 来源:ICLR 2025 poster。