L1 损失和 L2 损失是两种常用的损失函数,用于衡量模型的预测值与真实值之间的误差。它们的主要区别在于对误差的处理方式不同,导致它们的性质和应用场景有所不同。
1. L1 损失 (绝对值损失, MAE)
L1 损失计算的是预测值与真实值之间绝对误差的总和:
[
L_{\text{L1}} = |\mathbf{\epsilon} - \hat{\mathbf{\epsilon}}_\theta(\mathbf{x}t, t)|1 = \sum |\epsilon_i - \hat{\epsilon}\theta(\mathbf{x}_t, t)_i|
]
特点:
- L1 损失函数的特点是对每个误差取绝对值,因此对异常值(outliers)的影响较小。
- 由于 L1 损失对大误差的惩罚较小,它倾向于生成更稀疏的解(即许多参数为零),这在某些任务(如稀疏编码或特征选择)中很有用。
梯度特性:
- L1 损失的梯度是常数:误差为正时梯度为 1,误差为负时梯度为 -1。这意味着当误差很小时,模型的更新速度不会很快。
2. L2 损失 (平方差损失, MSE)
L2 损失计算的是预测值与真实值之间误差的平方和:
[
L_{\text{L2}} = |\mathbf{\epsilon} - \hat{\mathbf{\epsilon}}_\theta(\mathbf{x}t, t)|2^2 = \sum (\epsilon_i - \hat{\epsilon}\theta(\mathbf{x}_t, t)_i)^2
]
特点:
- L2 损失对大误差的惩罚较大,因为误差的平方会放大大的误差。这使得 L2 损失更敏感于异常值(outliers)。
- 因为 L2 损失倾向于最小化所有误差,它更适合于均匀分布的数据或误差。
梯度特性:
- L2 损失的梯度与误差成正比,因此当误差很大时,梯度会更大。这意味着 L2 损失在大误差的情况下会更快地更新参数。
3. 区别总结:
-
L1 损失:计算的是误差的绝对值,因此对每个误差的惩罚是线性的。它对异常值不敏感,适合处理含有噪声的数据。L1 损失也倾向于产生稀疏解。
-
L2 损失:计算的是误差的平方,因此对大误差的惩罚较重。它更适合没有太多噪声的情况,且对异常值敏感。
4. 选择何时使用 L1 或 L2 损失:
-
L1 损失 适合在噪声较大、异常值较多的场景中使用,因为它对大误差的影响较小,且能够产生稀疏解。
-
L2 损失 适合用于误差较为均匀分布的场景中,因为它会对所有误差施加较大的惩罚,从而最大程度地减少所有误差。
5. 在训练中的表现:
- L2 损失:由于平方的惩罚机制,在大误差时,参数的更新速度较快,因此它可以更快地收敛于一个全局最小值。
- L1 损失:由于对大误差的更新较为温和,收敛速度相对较慢,但对噪声和异常值的鲁棒性更好。
总结:
- L1 损失:对误差的绝对值进行惩罚,适合对噪声和异常值不敏感的任务。
- L2 损失:对误差的平方进行惩罚,更适合平滑且噪声较少的数据,同时可以加速大误差的修正。