DeepSeek原理

news/2025/2/27 17:25:57/文章来源:https://www.cnblogs.com/aibi1/p/18741536

目录
  • DEEPSEEK
    • 1 DeepSeek 深度优化混合专家模型
    • 2 MLA 多头潜注意力
    • 3 多令牌预测机制
  • Deepseek的 MLA VS OpenapiI的 MHL
      • 计算和存储优化方面
      • 位置编码处理方面
      • 模型性能和应用场景方面
  • 参考资料

DEEPSEEK

3个创新

1 DeepSeek 深度优化混合专家模型

推理成本降低,速度变快,推理并发变多

6700亿参数,有100个专家组成。 1个专家消耗67亿 token
100个专家分组100个并发

2 MLA 多头潜注意力

提升预测的速度

3 多令牌预测机制

基于Transformer架构。原来Transformer基于next token,吞吐量不高。
改成多令牌预测机制,一个词,或句子往外OUTPUT

Deepseek的 MLA VS OpenapiI的 MHL

DeepSeek多头潜注意力机制(Multi-Head Latent Attention,MLA)和多头注意力机制(Multi-Head Attention,MHA)有以下区别:

计算和存储优化方面

  • MHA:计算复杂度与输入序列长度的平方成正比,每个头都需要独立存储查询(Query)、键(Key)和值(Value)矩阵,内存占用大,在处理长序列或大规模数据时,计算和存储成本会显著增加。
  • MLA:通过对键(Key)和值(Value)进行低秩联合压缩,将它们投影到一个更小的压缩潜在向量,大大减少了推理过程中的键值缓存(KV Cache)。同时对查询(Query)也进行低秩压缩,减少训练时的激活存储需求,降低了计算成本。

位置编码处理方面

  • MHA:传统的旋转位置编码(RoPE)在MHA中需要在每个注意力头的查询和键上分别执行旋转变换,计算量较大,且对于长序列输入,RoPE位置编码的结果存储在KV缓存中会使缓存大小随序列长度线性增长,占用大量GPU显存。
  • MLA:采用解耦RoPE策略,额外引入“解耦查询”,拆分查询为普通查询和解耦查询,使得部分信息不受RoPE影响,并且共享Key的RoPE变换,减少计算量和KV缓存大小,降低GPU内存占用,提高推理速度,更适用于长序列任务和大规模Transformer。

模型性能和应用场景方面

  • MHA:作为Transformer模型架构中的核心组件,能让模型在处理输入序列时关注到不同位置和不同表示子空间的信息,但存在特征冗余、模型解释性差、过拟合风险等问题,在推理效率上也有待提升,尤其是在长序列任务和资源受限场景中表现可能不佳。
  • MLA:通过创新的KV缓存压缩和恢复机制,在减少资源消耗的同时,能够保持甚至提升模型性能,实现了在资源消耗、推理速度和模型性能之间的更好平衡,为大语言模型在长序列处理、高效部署和应用等方面提供了新的可能性,更适合对计算效率和内存占用要求较高的场景。

参考资料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/890721.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis+Docker集群部署

机器故障了怎么办? Redis 是内存数据库,我们知道可以通过持久化机制,保存快照或者保存记录日志的方式,将数据持久化到磁盘。但是,如果机器故障了或磁盘坏了,数据就不就全没了吗?这种情况应该怎么办呢?别担心,考虑主从模式。 主从模式 给主节点 Master 配置一个从节点 …

【T20天正电气V10.0软件下载与安装教程】

1、安装包 扫描下方二维码关注「软知社」,后台回复【024】三位数字即可免费获取分享链接,无广告拒绝套路; 2、安装教程双击T20天正电气V10.0安装包,弹窗安装对话框选择我接收,点击下一步选择安装位置,点击下一步点击下一步等待安装进度完成安装完成,点击完成按钮点击下…

windows底层激活破解一步到位,TSforge也太暴力了!

windows底层激活破解一步到位,TSforge也太暴力了! windows底层激活破解一步到位,TSforge也太暴力了! 微软系统一直是需要收费的,也是电脑用户们经常遇到的问题,市面上也有很多工具, 但是今天的工具是最新的且**呼声最高、最彻底的**,需要的话赶紧保存下来,实际使用只需…

No.23 CSS--定位

一、定义position属性指定了元素的定位类型。其中,绝对定位和固定定位会脱离文档流. 设置定位之后:可以使用四个方向值进行调整位置:Ieft、top、right、bottom.二、相对定位<head><meta charset="UTF-8"><meta name="viewport" content=&q…

机器人保养指南周期性检修

机器人保养指南——那智不二越机器人日常维护、专业维修与周期性检修在进行那智不二越机器人的日常检查、维修、部件更换或任何其他相关作业时,首要且至关重要的一步是确保已切断电源,只有在完全断电的情况下,方可安全地进行后续操作。此外,还应在一次电源等关键位置设置明…

OERV兴趣探索:模拟器移植

最近看了很多开源项目,主要都集中在模拟器方面,我指的是游戏模拟器比如GameBoy或者PlayStation这一类。现在想玩这系列的游戏可以在手机或者电脑下载相应的模拟器,并且获取对应的ROM文件,不过也有一些模拟器是可以运行在Linux上面的,为了进一步探索,我选择了相对较小的项…

HTTP协议与RESTful API实战手册(二):用披萨店故事说透API设计奥秘

title: HTTP协议与RESTful API实战手册(二):用披萨店故事说透API设计奥秘 🍕 date: 2025/2/27 updated: 2025/2/27 author: cmdragon excerpt: 📦 本系列第二篇通过披萨店创业的完整案例,手把手教你: 用外卖订单理解HTTP协议细节 5个RESTful设计常见误区与修正方案 …

全局注册svg批量自动引入,动态修改svg以及样式配置问题

1.安装依赖npm i vite-plugin-svg-icons2.文件存放svg 3.全局组件svg-icon(直接放到全局组件目录下)<template><svg class="svg-icon"><use :xlink:href="`#icon-${props.name}`" class="mySVG":style="stroke: + props.…

msyql中单表语句

二、聚合函数 (1)max 最小值 select max(math) from student (2)min 最大值 select min(math) from student (3)sum 总数 select sum(math) from student (4)avg平均数 select avg(math) from student (5)count 统计个数 select count(math) from stu…

Java SpringBoot实现简易扫码登录流程 附项目代码

SpringBoot实现简易扫码登录流程,附项目代码先总结流程:移动端请求扫码登录,服务端生成二维码并缓存二维码ID和状态,将二维码的Base64格式返回给前端展示; PC端页面轮询检查二维码状态; 手机扫码后调用扫码接口,携带移动端的Token和二维码ID请求服务端,服务端根据扫码的…

Salesforce宣布2025年不招工程师,技术岗位真的会消失吗?

Salesforce CEO Marc Benioff 最近放出了一条让科技圈热议的消息:2025年,Salesforce将不再招聘新的软件工程师。作为全球最大的CRM软件提供商之一,这一决定引发了许多人对AI对就业市场影响的思考。 AI改变工作模式,工程师岗位需求减少 Marc Benioff 在采访中透露,2024年,…

mysql查询语句

一、查询语句 1、select查询一个表中的所有数据 格式: select * from 表名 ; 案例: select * from student ;2、查询部分字段信息数据 格式: select 字段1,字段2 from 表名; 案例: select name,math from student;3、查询字段可以用as 取别名 格式: select 字…