GIT RE-BASIN: MERGING MODELS MODULO PERMUTATION SYMMETRIES

news/2024/11/14 17:18:37/文章来源:https://www.cnblogs.com/mstk/p/18539735

在深度学习模型的训练过程中,经常会遇到这样的现象:每次训练,虽然初始值、随机种子、训练数据的顺序不一样,但是得到的loss曲线都差不多,在验证集上的结果也差不多.这篇论文从land scape的角度解释了这个问题:神经网络的loss landscape并不是我们想象中的很混乱、毫无规律,而是在permutation symmetry的意义下只有一个basin,这样即使每次训练的初始值、随机种子、训练数据的顺序不一样,最终都是进入到这个basin里面,所以loss曲线和验证集上的结果都差不多.

将神经网络中同一层的神经元顺序交换一下并不会改变这一层的输出,也就是说变换前后的模型在permutation symmetry的意义下是等价的,如下图所示:

ΘA与ΘB在两个不同的basin,但是通过等效变换以后,把ΘB变换到∏(ΘB),它们实际上是在同一个basin里面.

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/831799.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hashCode()与equals()之间的关系

在Java中,`hashCode()`和`equals()`方法之间存在紧密的关系,主要体现在它们共同作用于对象的比较和存储上,尤其是在集合(如HashSet、HashMap)和哈希表的实现中。 1.hashCode()和equals()是Object类中定义的两个重要方法,用于对象的比较和哈希处理。 2.hashCode()方法:h…

文生视频大模型

简介Sora 官网地址:https://openai.com/sora文生视频指的是将文本描述转化为视频内容的技术,2024年2月15日 OpenAI 正式对外发布 Sora 人工智能模型,在人工智能领域掀起了一场风波,这是计算机视觉领域的一个突破。 Sora 这一名称起源于日文中“空”的含义,暗示了其具备的无…

泛型中extends和super的区别

泛型中的 ​​extends​​​ 和 ​​super​​ 关键字用于设置类型参数的上下界,控制可以传递给泛型类型的参数类型。它们的区别在于限制的方向和用途: 1.extends:上界限制: 使用 ​​extends​​ 关键字定义了一个类型参数的上界,意味着传入的类型必须是指定类型或其子类型…

arthas进行服务器资源监控

https://arthas.aliyun.com/doc/ 官方指导文档 1、arthas下载 wget https://arthas.aliyun.com/arthas-boot.jar2、是jar包,可直接用java启动 java -jar arthas-boot.jar 3、查看所有进程信息 4、查看某个进程信息 thread PID

变更管理的艺术:CMDB变更管理应用全解析

在信息技术快速发展和企业数字化转型的背景下,变更管理成为了确保业务连续性和系统稳定性的关键环节。CMDB作为变更管理的核心工具,能够提供全面的资产和配置视图,还支持变更管理流程的各个方面,从而提高变更的成功率。 一、什么是变更管理 变更管理是指对IT环境中的配置项…

地球空间网格编码规则

中国国家标准提出《地球空间网格编码规则》(GB/T 40087-2021)是2021年4月30日实施的一项中华人民共和国国家标准 外文名称:Geospatial grid encoding rule 规定了地球空间网格剖分要求和编码方法。该标准适用于作为空间单元与空间信息组织的地球空间网格剖分和代码标识。 编…

海柔仿真系统存储实践:混合云架构下实现高可用与极简运维

海柔创新是一家专注于箱式仓储机器人系统的研发和设计的科技公司,其仿真平台通过数字模拟技术,再现实际仓库环境和设备,利用导入的地图、订单、库存及策略配置等数据来验证和优化仓储解决方案,确保设计方案的效率和合理性。 最初,海柔的仿真平台在单机环境中运行,但随着数…

ENVI55扩展工具: MODIS Gap-Filled 数据读取工具

1 工具介绍 工具支持 ENVI 5.5 及以上版本。 大部分 MODIS 产品数据均可使用 MCTK 工具打开和处理。但是最近在使用 MODIS Gap-Filled 数据时,发现 MCTK 工具并不支持,会弹出如下提示。 MODIS Gap-Filled 数据通常为年合成产品,例如 MOD17A3HGF 为年合成植被净初级生产力和…

如何打造高效团队文化:项目管理工具必不可少

在当今的职场环境中,“高效团队文化”已成为一个热门话题。高效的团队不仅能快速适应项目需求的变化,还能通过顺畅的沟通和高效的执行来确保高质量的成果。而一个成功的团队文化通常离不开三个关键要素:合适的管理工具、有效的沟通机制、以及强大的执行力。 建立高效团队文化…

深圳电子MES制造执行系统选型特点

电子mes系统在选型时,需要考虑多个特点以确保系统能够满足企业的实际需求。针对广州地区的MES系统选型,以下是一些关键特点:深圳mes系统数据采集与整合能力:MES系统应能够整合多种数据采集渠道(如RFID、条码设备、PLC、Sensor等),确保现场数据的实时、准确、全面采集。良…

QRust(三)编程框架

把Rust作为动态库或静态库链接到Qt环境中,本就是一件复杂的工作,在此基础上还要引入QRust更是难上加难,因此在这一章我将手把手的引导你向前迈进,并跨过我曾经遇到的坑。 编程环境 Qt环境:Qt6,没错不支持Qt5。因为我发现struct的类型推导在Qt5环境下有错误。 Rust环境:理…