1. 什么是DPO?
DPO(Direct Preference Optimization)是一种用于对齐大语言模型(LLMs)的新型方法,旨在高效地将人类偏好融入模型训练中。它提供了一种替代强化学习(如 RLHF, Reinforcement Learning with Human Feedback)的方式,能够直接优化偏好数据,而无需显式地引入奖励模型(Reward Model)或策略梯度方法。
所以DPO到底是什么?
我们先看看训练DPO需要的数据集形式:
{"prompt": "What are the benefits of meditation?","chosen": "Meditation helps reduce stress, improve focus, and enhance emotional well-being.","rejected": "Meditation is sitting quietly for a while, but it may not help everyone."
}
给一个提示词,给两个选择,chosen是人选的,rejected是人不选的,现在希望LLM也能像人一样选对,这就是对齐人类偏好。
之前的解决方案是RLHF,但是RLHF需要用到PPO算法,而PPO算法需要训练策略网络和价值网络,训练成本过高,而PPO是一种成本低很多,而且很简单的方式。
2. 具体算法
2.1 KL散度
先上公式:
\[ KL(P||Q)=\sum_{x\in X}P(x)\log\left(\frac{P(x)}{Q(x)}\right)
\]
这个在LLM训练中很常见,在PPO算法中也介绍过,主要约束模型在参数更新过程中不能变化太大,保证模型基本的能力。
2.2 Bradley-Terry模型
先说这个模型的作用就是根据成对比较的胜负结果估计选项的相对偏好或胜率。也就是通过两两比较来估计该模型中每一个相对元素的实力。
举个例子:
已知,
对战 |
胜 |
负 |
A 对 B |
8 |
4 |
A 对 C |
3 |
5 |
显然可以看出A比B强点,A比C弱一点,所以强度排名:C > A > B,但是我再问一句,A打败B的概率又是多少呢?
是这样的呢:
对战 |
胜 |
负 |
A 对 B |
4 |
7 |
A 对 C |
7 |
12 |
能不能评估出B和C谁更强一点?如果再加入D,E,F,G这些别的选手呢,对局的场数非常非常多了,有没有什么办法能给这些角色排个名呢?那如果我能用一个数字来量化每个角色强度的话,排名是不是就很容易了?Bradley-Terry就是用来做这个的。
首先我们用\(\alpha\)来表示一个角色的实力,\(\alpha_i\)来表示第\(i\)个角色的实力,如果A比B强,那么\(P(A > B)=\frac{\alpha_A}{\alpha_A+\alpha_B}\)是不是就应该越大越好,最起码得大于0.5,那这个\(P(A > B)\)就表示A打败B的概率,回忆一下学过的最大似然估计,这个时候是不是就能派上用场了。
这里直接快进到求完对数的步骤:
\[\ln L = 8\ln\left(\frac{\alpha_A}{\alpha_A+\alpha_B}\right)+4\ln\left(\frac{\alpha_B}{\alpha_A+\alpha_B}\right)+3\ln\left(\frac{\alpha_A}{\alpha_A+\alpha_C}\right)+5\ln\left(\frac{\alpha_C}{\alpha_A+\alpha_C}\right)
\]
其中\(L\)是我们要估计的似然值,在这里,既然只需要量化实力,那就需要一个参照值,我们将A的实力设置为1,也就是\(\alpha_A\)为1,那我们分别对\(\alpha_B\)、\(\alpha_C\)求偏导等于0可以算出\(\alpha_B=0.5\)、\(\alpha_C=\frac{5}{3}\),这样就能算出B战胜C的概率,\(P(B > C)=\frac{\alpha_B}{\alpha_B+\alpha_C}\approx0.23\)。
这个\(\alpha\)值对应到PPO算法里面就是奖励值\(r\),下标也不用\(i\)了换一种表示形式\(\alpha_i\)变成了\(r(x, y_l)\)和\(r(x, y_w)\),其中\(x\)表示prompt,\(y_l\)表示人类不是很偏向的回答,\(y_w\)表示人类偏好的回答,因此\(P(A > B)=\frac{\alpha_A}{\alpha_A+\alpha_B}\)就变成了
\[P(y_w > y_l)=\frac{r(x,y_w)}{r(x,y_w)+r(x,y_l)}
\]
我们不喜欢负数,不妨都加一个指数,式子就变成了
\[P(y_w > y_l)=\frac{\exp(r(x,y_w))}{\exp(r(x,y_w))+\exp(r(x,y_l))}
\]
做最大似然估计,目标就变成了
\[\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\ln\frac{\exp(r(x,y_w))}{\exp(r(x,y_w))+\exp(r(x,y_l))}\right]
\]
要让它最大化,但是我们的\(loss\)值一般是最小化,所以加个负号就行。
由于sigmod函数表达式为:
\[\sigma(x)=\frac{1}{1 + \exp(-x)}
\]
因此,可以做如下变化:
\[\begin{align*}
\text{Loss}&=-\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\ln\frac{\exp(r(x,y_w))}{\exp(r(x,y_w))+\exp(r(x,y_l))}\right]\\
&=-\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\ln\frac{1}{1 + \exp(r(x,y_l)-r(x,y_w))}\right]\\
&=-\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\ln\sigma(r(x,y_w)-r(x,y_l))\right]\\
&=-\ln\sigma(r(x,y_w)-r(x,y_l))
\end{align*}
\]
到此,Bradley-Terry模型就介绍完了。其中的\(r\)我们可以类比成PPO里的奖励值。
2.3. DPO
我们先看DPO的训练目标是什么,肯定就是在尽可能拿多奖励的同时又不至于变化太大,也就是最大化以下目标:
\[\mathbb{E}_{x\sim D,y\sim\pi}[r(x,y)] - \beta\mathbb{D}_{KL}[\pi(y|x)||\pi_{ref}(y|x)]
\]
再做一些数学变换:
\[\begin{align*}
&\max_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}[r(x,y)] - \beta\mathbb{D}_{KL}[\pi(y|x)||\pi_{ref}(y|x)]\\
=&\max_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}[r(x,y)] - \mathbb{E}_{x\sim D,y\sim\pi}\left[\beta\log\frac{\pi(y|x)}{\pi_{ref}(y|x)}\right] \tag{1}\\
=&\max_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}\left[r(x,y) - \beta\log\frac{\pi(y|x)}{\pi_{ref}(y|x)}\right] \tag{2}\\
=&\min_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}\left[\log\frac{\pi(y|x)}{\pi_{ref}(y|x)}-\frac{1}{\beta}r(x,y)\right] \tag{3}
\end{align*}
\]
步骤(1)是对KL散度的展开,步骤(3)是加了个负号然后除了一个\(\beta\),除以一个常数不影响参数更新,虽然写的等号但是其实不相等,不过这样做对结果没有影响。
后续步骤:
\[\begin{align*}&=\min_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}\left[\log\frac{\pi(y|x)}{\pi_{ref}(y|x)}-\log\exp\left(\frac{1}{\beta}r(x,y)\right)\right] \tag{4}\\
&=\min_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}\left[\log\frac{\pi(y|x)}{\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)}\right] \tag{5}\\
&=\min_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}\left[\log\frac{\pi(y|x)}{\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)\frac{1}{Z(x)}Z(x)}\right] \tag{6}\\
&=\min_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}\left[\log\frac{\pi(y|x)}{\frac{1}{Z(x)}\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)}-\log Z(x)\right] \tag{7}
\end{align*}
\]
步骤(4)对\(r(x, y)\)同时取指数和对数,步骤(5)利用对数函数的性质,步骤(6)引入了一个\(Z(x)\),由于是恒等变换,只要这个\(Z(x)\)不等于0,取什么都是可以的,因此作者取\(Z(x)=\sum_y \pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)\),为什么这么取,因为这么取完之后\(\frac{\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)}{\sum_y\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)}\)是一个概率,\(\sum_y{\frac{\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)}{\sum_y\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)}} = 1\)。
现在我们处理步骤(7)第一个log下面那一坨复杂的东西,不妨给它一个代号\(\pi^*\),即:
\[\frac{1}{Z(x)}\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)=\frac{\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)}{\sum_y\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)}=\pi^*(y|x)
\]
先往下推理:
\[\begin{align}
&=\min_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}\left[\log\frac{\pi(y|x)}{\pi^*(y|x)}-\log Z(x)\right] \tag{8}\\
&=\min_{\pi} \mathbb{E}_{x\sim D,y\sim\pi}\left[\log\frac{\pi(y|x)}{\pi^*(y|x)}\right] \tag{9}\\
&=\min_{\pi} \mathbb{E}_{x\sim D}\left[\mathbb{D}_{KL}(\pi(y|x)||\pi^*(y|x))\right]\Rightarrow \pi(y|x)=\pi^*(y|x)=\frac{1}{Z(x)}\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right) \tag{10}
\end{align}
\]
对于步骤9,我们要更新的是策略\(\pi\)的参数,而\(\pi_{ref}\)是参照模型,是不需要更新参数的,也就是说在优化目标式中它是一个常数,可以直接丢掉,对于步骤(10),我们发现步骤(9)就是符合KL散度定义的,其实不这么引入也行,要最小化步骤(9)的式子,我们使\(\pi(y|x)=\pi^*(y|x)\)即可。因此得到了步骤(10)的最后一个式子也就是
\[\pi(y|x)=\pi^*(y|x)=\frac{1}{Z(x)}\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)
\]
也就是
\[\pi(y|x)=\frac{1}{Z(x)}\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)
\]
推理一下:
\[\begin{align*}
\pi(y|x)&=\frac{1}{Z(x)}\pi_{ref}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)\tag{1}\\
\Rightarrow\exp\left(\frac{1}{\beta}r(x,y)\right)&=\frac{\pi(y|x)}{\pi_{ref}(y|x)}Z(x)\tag{2}\\
\Rightarrow r(x,y)&=\beta\ln\left(\frac{\pi(y|x)}{\pi_{ref}(y|x)}Z(x)\right)\tag{3}\\
\Rightarrow r(x,y)&=\beta\ln\frac{\pi(y|x)}{\pi_{ref}(y|x)}+\beta\ln Z(x)\tag{4}
\end{align*}
\]
那我们现在知道\(r(x,y)\)了,我们之前提到过\(P(y_w > y_l)=\frac{r(x,y_w)}{r(x,y_w)+r(x,y_l)}\),那给了我们很多偏好数据,也就是两两比较的数据,我们是不是也能对他们做一个最大似然估计呢?之前我们提到的Bradley-Terry模型的损失函数:
\[Loss = =-\ln\sigma(r(x,y_w)-r(x,y_l))
\]
这里将\(r(x, y)\)带入
\[\begin{align*}
&-\ln\sigma(r(x,y_w)-r(x,y_l))\\
=&-\ln\sigma\left(\beta\ln\frac{\pi(y_w|x)}{\pi_{ref}(y_w|x)}+\beta\ln Z(x)-\beta\ln\frac{\pi(y_l|x)}{\pi_{ref}(y_l|x)}-\beta\ln Z(x)\right)\\
=&-\ln\sigma\left(\beta\ln\frac{\pi(y_w|x)}{\pi_{ref}(y_w|x)}-\beta\ln\frac{\pi(y_l|x)}{\pi_{ref}(y_l|x)}\right)
\end{align*}
\]
就得到了DPO的最终优化目标。