4.8 练习-编程知识

4.8 练习

news/2025/3/11 14:45:02/文章来源:https://www.cnblogs.com/dingxingdi/p/18765034

\((3)\)
P116的说明，感觉就是矩阵的特征值与矩阵的乘积很相关，所以要控制梯度矩阵的特征值
\((4)\)
采用该方法的主要原因是通过动态调整每层的学习率来维持训练的稳定性，具体分析如下：

梯度与权重的平衡：
权重的范数（(|w^l|)）反映参数的当前幅值，梯度范数（(|\nabla L(w^l)|)）反映损失对参数的敏感度。二者的比值 (\frac{|w^l|}{|\nabla L(w^l)|}) 衡量了参数更新步长的合理范围。若梯度大（敏感度高），则降低学习率以避免更新过大；若梯度小（敏感度低），则提高学习率以加速收敛。
自适应学习率：
传统方法使用全局学习率，但不同层的梯度特性可能差异显著。通过逐层计算 (\lambda^l)，可为每层分配与其状态匹配的学习率。例如，梯度爆炸的层自动降低学习率，梯度平缓的层适当增大学习率，从而缓解发散问题。
更新量控制：
公式隐含了参数更新量 (\Delta w^l \approx \lambda^l \cdot |\nabla L(w^l)|)。通过设计 (\lambda^l \propto \frac{|w^l|}{|\nabla L(w^l)|})，可使更新量 (\Delta w^l) 的幅值与当前权重幅值成比例（(\Delta w^l \propto |w^l|)），避免因步长过大导致权重剧烈震荡。
信任系数的作用：
超参数 (\eta) 调节对上述比值的信任程度。较小的 (\eta) 会保守地限制学习率的变化范围，防止因梯度突然变化（如梯度消失）导致的学习率剧烈波动，增强鲁棒性。

综上，该方法通过权重的局部信息自适应调整学习率，平衡各层更新幅度，是预防训练发散的有效事后修正策略。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/897270.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Docker：CentOS 7 离线安装 docker-ce

0. 检查卸载已有docker 查看是否安装 docker yum list installed | grep docker 卸载docker yum remove docker docker-common container-selinux docker-selinux docker-engineyum remove -y docker-* 1. 下载安装包要下载docker-18.06.x-ce版本，否则有些不支持 k8s。。请看…

dp泄露攻击

题目: from Crypto.Util.number import *flag = bNSSCTF{******} + b1*100p = getPrime(512) q = getPrime(512)n = p*q e = 65537 d = inverse(e, (p-1)*(q-1))dp = d % (p-1)m = bytes_to_long(flag)c = pow(m, e, n)print(fn = {n}) print(fc = {c}) print(fdp = {dp}) n = …

dpdq泄露攻击-没e_

题目: from Crypto.Util.number import * from gmpy2 import * from secret import flagp = getPrime(1024) q = getPrime(1024) d = inverse(65537,(p-1)*(q-1)) dp = d%(p-1) dq = d%(q-1) print(fc={pow(bytes_to_long(flag),e,p*q)}) print(fp={p}) print(fq={q}) print(fd…

Linux安装Ollama服务

背景 Ollama官方提供了一键式安装脚本，但因国内网络问题，效率太低，所以探索更为快捷方式。我的系统信息如下 root@yan:/mnt/d/data# lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 22.04.5 LTS Release: 22.04 Code…

C学习笔记-311

多维数组和指针为什么需要数组为了解决大量同类型数据的存储和使用问题。用数组可以模拟现实世界。Int a[25]：一维数组，可以当做一个线性结构。 Int a[8][6]：可以当做一个平面，意思是8行6列。有48个元素。 Int a[3][4][5]：可以当做一个三维立体。 Int a[3][4][5][6]：可…

e与(p-1)或(q-1)均不互素

题目: from Crypto.Util.number import bytes_to_long from secret import flage = 0x14 p = 7330895897249035860738209657929637460767893905398244379628076799548083100726568174238286139385106848645676643457511649442694896479642275193079806880680590593771233914993…