稀疏计算、彩票假说、MoE、SparseGPT

稀疏计算可能是未来10年内最有潜力的深度学习方向之一,稀疏计算模拟了对人脑的观察,人脑在处理信息的时候只有少数神经元在活动,多数神经元是不工作的。而稀疏计算的基本思想是:在计算过程中,将一些不重要的参数设置为0,从而减少计算量。而这种计算量的减少规模经常是10倍级别,这为部署提速提供了想象力。业界已有一些公司例如墨芯科技在做这方面的工作,并取得了一些成果,大家可以看他们的宣传视频(https://mp.weixin.qq.com/s/NHydrLhqJYGbvF7eY2m9RA),下面推荐几篇经典的文章:

The Lottery Ticket Hypothesis(彩票假说)

  • 推荐理由: 这是这个领域里非常经典的一篇文章,作者提出了一种生成稀疏的高性能网络的简单方法:在对网络进行训练后,将所有小于某个阈值的权重设置为0(对其进行剪枝),将其余权重重置回其初始配置,然后在保证被剪枝的权重处于冻结状态的情况下(未经过训练),从这个起始配置重新训练网络。在训练最多相同次数的迭代后,它可以与原始网络的测试精度相匹配。
  • 论文地址: https://openreview.net/pdf?id=rJl-b3RcF7
  • 相关解读: https://zhuanlan.zhihu.com/p/675189739 和 https://www.bilibili.com/read/cv2806397/

A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING (来自Jeff Dean的综述)

  • 推荐理由: 尽管彩票假说给业界提供了想象力,但是选择哪些参数裁掉仍是业界一个需要探索的问题。MoE结构提供了一种方案,例如Mixtral 8✖️7B就是一种典型的MoE结构(https://zhuanlan.zhihu.com/p/673527090)。Jeff Dean的综述比较详细地介绍了什么是top-k routing、Upstream Scaling和Downstream Scaling
    在这里插入图片描述

  • 论文地址: https://arxiv.org/abs/2209.01667

  • 相关解读: https://mp.weixin.qq.com/s/mTqCMYUqo1ifcmxlYHYm2A 和 https://huggingface.co/blog/zh/moe

SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

在这里插入图片描述

  • 推荐理由: 该算法能够只用一张 A100(80G),在 4.5 个小时左右将 OPT-175B 的模型权重完成 60% 稀疏度的剪枝,且能保持较高的精度。而且可以很好地扩展到 2:4 模式的半结构化剪枝,以适配 A100 的稀疏计算。SparseGPT用来剪枝的思路其实和GPTQ有些类似,都是利用海森矩阵贪心地进行迭代更新,同时利用Cholesky分解来稳定数值计算
  • 论文地址: https://arxiv.org/pdf/2301.00774.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/487342.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go 中如何高效遍历目录?探索几种方法

嗨,大家好!我是波罗学。本文是系列文章 Go 技巧第十八篇,系列文章查看:Go 语言技巧。 目录遍历是一个很常见的操作,它的使用场景有如文件目录查看(最典型的应用如 ls 命令)、文件系统清理、日志…

第十二天-ppt的操作

目录 创建ppt文档 安装 使用 段落的使用 段落添加数据 段落中定义多个段落 自定义段落 ppt插入表表格 PPT插入图片 读取ppt 读取ppt整体对象 ​编辑 获取ppt文本 获取表格内容 创建ppt文档 安装 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python…

C++最佳实践之编译篇

C最佳实践之工程编译 在大型c/c工程开发中,往往会涉及多级CMakeLists.txt的调用,并且调用方式错综复杂,主要有以下两种方式: 1. 子目录中的CMakeList.txt独立生成目标,不作为主目标生成过程的依赖关系(比…

2024Node.js零基础教程(小白友好型),nodejs新手到高手,(八)NodeJS入门——http模块

一念心清净,处处莲花开。 055_http模块_网页资源加载基本过程 哈喽,大家好,这一课节我们来介绍一下网页资源加载的基本过程。首先先强调一点,这个内容对于我们后续学习非常非常的关键,所以大家务必要将其掌握。 首先先…

C++奇怪的 ::template

答疑解惑 怎么会有::template的写法 起初 在阅读stl的源码的时候&#xff0c;发现了一条诡异的代码 // ALIAS TEMPLATE _Rebind_alloc_t template<class _Alloc,class _Value_type> using _Rebind_alloc_t typename allocator_traits<_Alloc>::template rebind…

【高德地图】Android高德地图绘制标记点Marker

&#x1f4d6;第4章 Android高德地图绘制标记点Marker ✅绘制默认 Marker✅绘制多个Marker✅绘制自定义 Marker✅Marker点击事件✅Marker动画效果✅Marker拖拽事件✅绘制默认 Infowindow&#x1f6a9;隐藏InfoWindow 弹框 ✅绘制自定义 InfoWindow&#x1f6a9;实现 InfoWindow…

6.网络游戏逆向分析与漏洞攻防-游戏网络架构逆向分析-通过逆向分析确定游戏明文发送数据过程

内容参考于&#xff1a;易道云信息技术研究院VIP课 上一个内容&#xff1a;测试需求与需求拆解 在开始之前要了解一个小知识&#xff0c;在逆向开始之前要很清楚知道要找的东西是什么&#xff0c;大概长什么样子&#xff0c;只有这样才能看到它第一眼发现它&#xff0c;现在我…

nginx反向代理和负载均衡配置

配置文件 位置 : /usr/local/software/nginx/conf vim nginx.conf 在http大括号下配置: upstream wnBalance{ server ip:端口 weight比重 :1或者2; 1为配重高 server ip:端口 weight1; } wnBalance : 代表括号中两个ip的变量名 位置 : /usr/local/so…

华为配置WLAN AC和AP之间VPN穿越示例

配置WLAN AC和AP之间VPN穿越示例 组网图形 图1 配置WLAN AC和AP之间VPN穿越示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件 业务需求 企业用户接入WLAN网络&#xff0c;以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时&#xff0c;不影响…

详解AP3216C(三合一sensor: 光照、距离、照射强度)驱动开发

目录 概述 1 认识AP3216C 1.1 AP3216C特性 1.2 AP3216C内部结构 1.3 AP3216C 硬件电路 1.4 AP3216C工作时序 1.4.1 I2C 写数据协议 1.4.2 I2C 读数据协议 1.5 重要的寄存器 1.5.1 系统配置寄存器 1.5.2 和中断相关寄存器 1.5.3 IR数据寄存器 1.5.4 ALS 数据寄存器 …

【openGL教程08】着色器(02)

LearnOpenGL - Shaders 一、说明 着色器是openGL渲染的重要内容&#xff0c;客户如果想自我实现渲染灵活性&#xff0c;可以用着色器进行编程&#xff0c;这种程序小脚本被传送到GPU的显卡内部&#xff0c;起到动态灵活的着色作用。 二、着色器简述 正如“Hello Triangle”一章…

【Logback】Logback 日志框架的架构

目录 1、Logger&#xff08;记录器&#xff09; &#xff08;1&#xff09;有效级别和级别继承 &#xff08;2&#xff09;日志打印和日志筛选 &#xff08;3&#xff09;记录器命名 2、Appenders&#xff08;追加器&#xff09; 3、Layouts&#xff08;布局&#xff09;…