3月18号
所花时间:225分钟
博客量:1
代码量:0
所学知识点:今天主要学习内容为最优化方法
具体内容为,最速下降法和牛顿法的学习
最速下降法和牛顿法是两种经典的优化算法,常用于求解函数的极小值问题。以下是它们的核心思想和特点对比:
- 最速下降法(Gradient Descent)
核心思想:
每次迭代沿着当前点的梯度反方向(负梯度方向)移动,因为梯度方向是函数增长最快的方向,反方向即为下降最快的方向。
是梯度。
优点:
算法简单,易于实现。
适合大规模问题(如机器学习中的高维参数优化)。
缺点:
收敛速度较慢,尤其在接近极小值时可能出现 “之字形” 震荡。
步长选择敏感:过大可能发散,过小导致收敛过慢。
适用场景:
初始阶段快速接近极小值,或对计算效率要求较高的场景。
2. 牛顿法(Newton-Raphson Method)
核心思想:
利用函数的二阶导数信息(海森矩阵 ),通过求解局部二次近似的最小值来确定搜索方向。
优点:
收敛速度快(二阶收敛),尤其在极小值附近表现优异。
对目标函数的曲率敏感,能自动调整步长。
缺点:
计算复杂度高:需计算海森矩阵及其逆矩阵,时间复杂度为
O(n3)(n为变量维度)。
对初始点敏感:若初始点远离极小值,可能不收敛或陷入鞍点。
适用场景:
小规模问题或目标函数二阶可导且海森矩阵容易计算的场景。
对比总结
特性 最速下降法 牛顿法
收敛速度 线性收敛(较慢) 二阶收敛(很快)
计算复杂度 低(仅需梯度) 高(需海森矩阵及其逆)
适用问题规模 大规模(如机器学习) 小规模(如数学优化)
步长调整 需手动设定或简单策略 自动调整(依赖二阶信息)
实际应用建议
若问题规模大且计算资源有限,优先选择最速下降法或其改进版本(如 Adam)。
若问题规模小且需要快速收敛,牛顿法或拟牛顿法(如 BFGS)更合适。
实际中常结合两者特点,例如使用梯度下降法快速接近极小值,再用牛顿法加速收敛。