3月18号-编程知识

3月18号

news/2025/3/18 21:32:26/文章来源:https://www.cnblogs.com/tiandaochouq/p/18779844

3月18号
所花时间：225分钟
博客量：1
代码量：0
所学知识点：今天主要学习内容为最优化方法
具体内容为，最速下降法和牛顿法的学习
最速下降法和牛顿法是两种经典的优化算法，常用于求解函数的极小值问题。以下是它们的核心思想和特点对比：

最速下降法（Gradient Descent）
核心思想：
每次迭代沿着当前点的梯度反方向（负梯度方向）移动，因为梯度方向是函数增长最快的方向，反方向即为下降最快的方向。

是梯度。
优点：
算法简单，易于实现。
适合大规模问题（如机器学习中的高维参数优化）。
缺点：
收敛速度较慢，尤其在接近极小值时可能出现 “之字形” 震荡。
步长选择敏感：过大可能发散，过小导致收敛过慢。
适用场景：
初始阶段快速接近极小值，或对计算效率要求较高的场景。
2. 牛顿法（Newton-Raphson Method）
核心思想：
利用函数的二阶导数信息（海森矩阵），通过求解局部二次近似的最小值来确定搜索方向。
优点：
收敛速度快（二阶收敛），尤其在极小值附近表现优异。
对目标函数的曲率敏感，能自动调整步长。
缺点：
计算复杂度高：需计算海森矩阵及其逆矩阵，时间复杂度为
O(n3)（n为变量维度）。
对初始点敏感：若初始点远离极小值，可能不收敛或陷入鞍点。
适用场景：
小规模问题或目标函数二阶可导且海森矩阵容易计算的场景。
对比总结
特性最速下降法牛顿法
收敛速度线性收敛（较慢）二阶收敛（很快）
计算复杂度低（仅需梯度）高（需海森矩阵及其逆）
适用问题规模大规模（如机器学习）小规模（如数学优化）
步长调整需手动设定或简单策略自动调整（依赖二阶信息）
实际应用建议
若问题规模大且计算资源有限，优先选择最速下降法或其改进版本（如 Adam）。
若问题规模小且需要快速收敛，牛顿法或拟牛顿法（如 BFGS）更合适。
实际中常结合两者特点，例如使用梯度下降法快速接近极小值，再用牛顿法加速收敛。