11.9.1 算法

news/2025/2/15 23:29:28/文章来源:https://www.cnblogs.com/dingxingdi/p/18717581

\((11.78)\)的直观理解:最开始的时候梯度很大,为了防止震荡,我们需要减小步长,这是分母的作用,但是梯度大就表示参数更新也应该大,所以需要增大步长,这是分子的作用;迭代一段时间之后,梯度就变小了,此时为了加速收敛,我们需要增大步长,这是分母的作用(注意这里跟\(\text{AdaGrad}\)不一样,这里用的是泄露平均值),但是此时参数已经接近收敛了,所以也要减少步长,这是分子的作用。DeepSeek的回答见下
Adadelta算法中调整后的梯度更新公式(式11.9.3)的直观理解可以通过以下三个关键视角展开:


1. 动态平衡的双历史视角

公式的核心结构:
[
g't = \underbrace{\frac{\sqrt{\Delta x{t-1}}}{\sqrt{s_t}}}_{\text{自适应杠杆}} \odot g_t
]

  • 分母 ( \sqrt{s_t} ):继承自RMSProp思想,代表梯度二阶矩的历史衰减平均
    • 作用:对当前梯度 ( g_t ) 进行归一化,抑制波动剧烈的参数更新(如梯度爆炸时,分母增大会缩小步长)。
  • 分子 ( \sqrt{\Delta x_{t-1}} ):Adadelta的独特设计,代表参数更新量二阶矩的历史衰减平均
    • 作用:将过去参数的实际更新幅度作为参考基准,动态校准当前步长(若历史更新幅度大,则适当放大当前步长)。

直观意义
通过同时考虑梯度波动历史(分母)和参数更新历史(分子),算法自动平衡了以下矛盾:

  • 梯度大时需缩小步长(防止震荡),但若参数本身需要大幅调整(Δx_{t-1}大),则允许适当放大步长;
  • 梯度小时需放大步长(加速收敛),但若参数已接近稳定(Δx_{t-1}小),则抑制无效噪声。

2. 无学习率的自洽系统

传统优化器(如SGD)需要手动设置学习率 ( \eta ),而Adadelta通过式11.9.3-11.9.4构建了一个自洽的更新系统

  • 分子隐含学习率:式11.9.3中的 ( \sqrt{\Delta x_{t-1}} ) 实际替代了人工设定的 ( \eta )。
  • 自反馈机制:当前调整后的梯度 ( g'_t ) 会通过式11.9.4更新到 ( \Delta x_t ),进而影响下一时间步的分子值,形成闭环反馈。

物理类比
想象一个弹簧系统,弹簧的伸缩幅度(步长)不仅取决于当前外力(梯度),还受之前伸缩历史(Δx)的影响。系统通过历史记忆自动调节刚性系数,无需外部设定初始参数。


3. 对病态条件的鲁棒性

通过对比其他优化器分析其优势:

优化器 核心缺陷 Adadelta的改进策略
AdaGrad 学习率单调递减至零(早停问题) 使用泄露平均(ρ < 1)替代累积和,避免分母膨胀
RMSProp 依赖人工设定初始学习率η 用Δx_{t-1}动态替代η,实现无超参数自适应
Momentum 在梯度方向突变时产生振荡 通过Δx_{t-1}平滑历史更新,抑制方向抖动

实例说明
假设某参数在训练初期需要大幅调整(Δx_{t-1}较大),但当前梯度因噪声突然增大(s_t骤升):

  • AdaGrad:分母持续累积,步长被过度压制,导致收敛停滞;
  • Adadelta:分子Δx_{t-1}较大,部分抵消分母s_t的影响,保持合理步长,继续推进参数更新。

总结:核心直觉

Adadelta的梯度调整公式本质上构建了一个双历史驱动的自适应杠杆

  1. 分母压制梯度方向的瞬时波动(防震荡);
  2. 分子放大参数维度的长期趋势(促收敛);
  3. 二者通过比值动态平衡,使优化过程既稳定又能快速适应不同参数的尺度差异,最终实现无需手动调学习率的高效优化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/884481.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

清华大学最新力作,DeepSeek 从入门到精通PDF

前几天,我发布了一篇关于 WPS 集成 DeepSeek 的教程,没想到大家的反响非常热烈!很多朋友都表示,通过这篇教程学到了不少关于 DeepSeek 的实用技巧,赶紧点进来看。不过,今天我给大家带来了更猛的干货——清华大学最新发布的 DeepSeek 资料!而且这次的资料更加关注 DeepSe…

安装程序无法自动安装virtual machine

安装VMware Tools 失败 发现在给过旧的系统安装 安装VMware Tools 的时候,会失败,比如 win7、win server2008等。原因 官网的说明,在这里 看不懂的自行翻译: 微软已将 Windows 驱动程序签名更改为自 2019 年 12 月 3 日起仅使用 SHA-2 算法,不支持 SHA-2 代码签名的旧版 W…

尝试在 Kubernetes 集群上用阿里云 GPU 实例部署 Ollama + DeekSeek-R1

在前一篇博文中尝试了使用阿里云 GPU 实例 ECS 单机部署了 DeekSeek-R1 7b 模型 。这篇博文记录一下在 k8s 集群上用阿里云 GPU 实例部署 DeekSeek R1 大模型的尝试过程,部署的也是 deepseek-r1:7b 模型。 先准备一台阿里云 GPU 实例,选用了共享型 GPU 实例 sgn7i,8核31G,4…

基于SOA海鸥优化算法的三维曲面最高点搜索matlab仿真

1.程序功能描述 基于SOA海鸥优化算法的三维曲面最高点搜索matlab仿真,输出收敛曲线以及三维曲面最高点搜索结果。 2.测试软件版本以及运行结果展示MATLAB2022A版本运行 3.核心程序for ij = 1:Mgen% 初始化本代最佳适应度及对应解yfit = 0.0;xbest = zeros(1,2); % 初…

Tomasulo 调度算法实现架构分析

虽然早在 1967 年就已经提出了 Tomasulo 调度算法 [1],但网上仍很少找到关于落到模块粒度的教程文档。从零复现一遍成本太大,因此用画原理图的方式做思想实验,尝试理解 Tomasulo 在电路上如何实现。 处理数据 首先明细几个概念指令(Instruction):包含指令类型(ADD、MUL、…

最新VMware Workstation虚拟机下载并安装

[2025年]最新VMware Workstation虚拟机下载并安装 1.最新VMware Workstation下载地址 2024年5月5日之后,VMware workstation不能直接在vmware官网进行下载了,需要在broadcom博通网站上进行下载 博通收购Vmware后(将workstation免费了),如下 旧的地址点击下载的时候会跳转到…

js之prototype

var TestPrototype = function () {this.propA = 1;this.methodA = function() {return this.propA;} }TestPrototype.prototype = {methodB: function() {return this.propA;} }var objA = new TestPrototype();objA.methodA() // 1 objA.methodB() // 1JavaScript 中, 任何函…

LGP4211_1 [LNTS 2014] LCA 学习笔记

LGP4211_1 [LNTS 2014] LCA 学习笔记 本题一题多解,此处记录其树剖+线段树做法。 Luogu Link 题意简述 给出一棵 \(n\) 个结点的树,以 \(1\) 为根。令 \(dep[1]=1\)。\(m\) 次询问,每次给定 \(l,r,z\),求 \(\sum_{i=l}^r dep[\text{lca}(i,z)]\)。 \(n,m\le 5^10^4\)。 做法…

LGP4211 [LNTS 2014] LCA 学习笔记

LGP4211_1 [LNTS 2014] LCA 本题一题多解,此处记录其树剖+线段树做法。 Luogu Link 题意简述 给出一棵 \(n\) 个结点的树,以 \(1\) 为根。令 \(dep[1]=1\)。\(m\) 次询问,每次给定 \(l,r,z\),求 \(\sum_{i=l}^r dep[\text{lca}(i,z)]\)。 \(n,m\le 5^10^4\)。 做法解析 题目…

自然语言处理入门【第4章】:认知语言智能

4.1 对话与问答 4.1.1 问答系统 问答系统(Question Answering System,QA System)是人工智能与自然语言处理领域的重要研究方向,旨在通过计算机技术实现对人类自然语言提问的精准理解与高效响应。与传统的搜索引擎不同,问答系统不仅需要检索相关信息,还需对问题进行语义解…

V-Control:一个基于 .NET MAUI 的开箱即用的UI组件库

前言 今天大姚给大家分享一个基于 .NET MAUI 的开源免费、开箱即用的UI组件库:V-Control。 V-Control项目介绍 V-Control 是一个适用于 .NET MAUI 的开源(MIT license)、免费的 UI 组件库,它提供了一组开箱即用的 UI 控件,可快速搭建面向业务的应用程序界面。.NET MAUI介绍 …

[AI/GPT/LLM] 大模型评估的综述:现状、挑战与未来方向

一、背景大语言模型(LLM)的复杂性和开放性带来了诸多评估挑战。准确、全面地评估大语言模型的性能,对于确保其在实际应用中的可靠性、安全性和有效性至关重要。 本文将深入探讨大语言模型评估的现状、挑战以及未来的发展方向,旨在为相关领域的研究人员和实践者提供有价值的…