1. 优化和深度学习
优化
和深度学习
的目标是不同的:
- 优化关注的是最小化目标
- 深度学习关注的是在给定有限数据量的情况下寻找合适的模型
例如:
- 优化问题的目标通常是减少
训练误差
。 - 深度学习的目标通常是减少
泛化误差
。为了实现该目标,除了使用优化算法,还需要注意过拟合。
1.1 局部最小值
深度学习模型的目标函数通常有许多局部最优解。随着目标函数解的梯度接近或变为0时,迭代可能会停止。
最终得到的数值解可能只是局部最优解,而非全局最优解。
一定程度的噪声可能会使参数跳出局部最小值,这是小批量随机梯度下降
的优点之一。
1.2 鞍点
除了局部最小值,鞍点
(saddle point)是梯度消失的另一个原因。
鞍点是指函数的所有梯度消失,但既不是全局最小值,也不是局部最小值的位置。
例如\(f(x) = x^3\),在\(x = 0\)处,函数的一阶和二阶倒数消失。
- 一个问题可能有很多的鞍点,因为问题通常不是凸的。
- 梯度消失可能会导致优化停滞,重参数化通常会有所帮助。对参数进行良好的初始化也可能是有益的。