基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节,并持续获得研究界的广泛关注。
本文将探讨RLHF技术,特别聚焦于直接偏好优化(Direct Preference Optimization, DPO)方法,并详细阐述了一项实验研究:通过DPO对GPT-2 124M模型进行调优,同时与传统监督微调(Supervised Fine-tuning, SFT)方法进行对比分析。
本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。
RLHF的基本原理
RLHF在LLM训练的后期阶段发挥关键作用,其核心目标是使模型与难以明确定义的微妙人类偏好达成更好的一致性。以下将详细分析其必要性。
现代LLM的训练通常包含多个阶段:
预训练阶段是第一阶段,模型通过在互联网等来源的海量文本数据上优化交叉熵目标进行训练。对于规模最大的模型,预训练数据集可能包含数万亿个非结构化token。该阶段使模型掌握基本的语言结构和事实性知识,形成一个能够准确完成句子和获取事实的"基础"模型,但其输出往往缺乏对话的自然性。
监督微调是第二阶段,模型在精心构建的问答对数据集上进行训练,这些数据集明确定义了特定上下文的最优响应。这些最优响应通常由领域专家编写,确保其格式规范、长度适当且信息充分。
RLHF构成第三阶段。该阶段旨在优化模型在那些难以精确定义但易于判断的行为场景中的表现(例如当AI公司期望其模型展现出顺从和友善的特质时),虽然创建数千个符合这些标准的最优响应成本高昂且耗时,但对已有响应进行评判则相对容易。这表明RLHF在优化那些难以生成标准答案但易于评估的行为方面具有独特优势。
https://avoid.overfit.cn/post/d8468a92798745d298b1130c98adc934