DeepSeek-V3

news/2025/1/30 12:29:10/文章来源:https://www.cnblogs.com/zz-w/p/18695118

一、与DeepSeek-v2和v1比较

1. 架构和参数(Architecture and Parameters)

  • DeepSeek-V3采用 Mixture-of-Experts (MoE) 架构,共有6710亿个参数,每个token仅激活370亿个参数。
  • DeepSeek-V2也使用了MoE框架,但是仅有2360亿参数,每个token仅激活210亿个参数。
  • DeepSeek-V1

2. 负载平衡创新(Load Balancing Innovations)

  • DeepSeek-V3采用了无辅助损失的负载均衡策略(auxiliary-loss-free load balancing strategy),该策略提高了模型性能,而没有与MoE架构中的负载均衡相关的传统缺点。这种创新确保了所有token在训练和推理过程中都得到有效处理,消除了token丢失[5][7]。
  • DeepSeek-V2 required auxiliary loss mechanisms that could degrade performance due to increased communication costs[2].
  • DeepSeek-V2需要辅助损失机制,这可能会由于增加通信成本而降低性能[2]。

Note:
"无辅助损失的负载均衡策略"指的是在负载均衡过程中,不依赖于任何额外的辅助损失机制(如辅助损失函数、额外的计算开销或通信开销)来优化系统性能。通常,负载均衡策略旨在将任务或请求合理地分配到多个处理单元,以提高效率并减少过载,但如果引入了辅助损失机制(例如,通过增加额外的模型训练损失来促进任务的平衡),则可能会增加通信成本或计算开销,甚至可能影响系统的整体性能。

"无辅助损失"的策略则意味着在负载均衡的过程中,不依赖于这些额外的损失机制,而是通过更直接、更高效的方式(如动态调整任务分配、资源调度等)来实现负载均衡,避免了性能上的降级和不必要的成本增加。

3. 多令牌预测 (Multi-Token Prediction)

  • 在DeepSeek-V3中引入多令牌预测(multi-token prediction)目标,提高了训练效率和推理能力。这允许模型同时预测多个令牌,显著加快处理时间并提高准确性。
  • DeepSeek-V2没有包含此功能,这限制了其在推理任务中的效率。

4. 训练效率(Training Efficiency)

  • DeepSeek-V3的训练过程非常高效,仅需278.8万GPU小时,与DeepSeek-V2的训练需求相比大幅减少。这种效率是通过高级混合精度技术(FP8)和优化的训练框架实现的。
  • DeepSeek-V2的训练方法优化程度较低,导致类似任务的资源消耗更高。

5. 业绩基准(Performance Benchmarks)

  • 在性能方面,DeepSeek-V3在各种基准测试中取得了最先进的结果,包括数学推理(mathematical reasoning)和编码任务(coding tasks),MMLU得分为87.1%,BBH** 得分为87.5%。
  • 虽然DeepSeek-V2对语言建模做出了重大贡献,但其性能指标不如V3具有竞争力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/877029.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型

目录大模型的演变大模型的使用与训练大模型的特点与分类大模型的工作流程大模型的应用 大模型的演变机器学习:深度学习:大模型的使用与训练 大模型的特点与分类 大模型的工作流程 大模型的应用本文来自博客园,作者:chuangzhou,转载请注明原文链接:https://www.cnblogs.co…

“星门计划对AI未来的意义——以及谁将掌控它”

“星门计划对AI未来的意义——以及谁将掌控它”图片由DALL-E 3生成就在几天前,唐纳德特朗普宣布了“星门计划”,OpenAI随即跟进,分享了更多细节。他们明确表示,计划在未来四年内投资5000亿美元,在美国为OpenAI构建一个全新的AI基础设施。这让我颇感意外,尤其是考虑到埃隆…

A Critique of ANSI SQL Isolation Levels.18695069

原文:A critique of ANSI SQL isolation levels摘要:ANSI SQL-92[MS, ANSI]使用脏读、不可重复读以及幻读现象(phenomena)定义了隔离级别,本论文展示了这些现象,以及ANSI SQL定义并无法合适的描述众多流行的隔离级别,包括(ANSI标准)所涵盖的级别的标准锁实现。我们还介…

HTML, CSS

什么是 HTML、CSS HTML (HyperText Markup Language): 超文本标记语言. 超文本: 超越了普通文本的限制, 比普通文本更加强大. 除了文字信息, 还可以定义图片、音频、视频等内容. 标记语言: 由标签构成的语言. HTML 标签都是预定义好的。例如: 使用 <a> 展示超链接,使用 &…

Cisco NX-OS System Software - ACI 16.1(2f) - 适用于 ACI 模式下的 Nexus 9000 系列交换机系统软件

Cisco NX-OS System Software - ACI 16.1(2f) - 适用于 ACI 模式下的 Nexus 9000 系列交换机系统软件Cisco NX-OS System Software - ACI 16.1(2f) 适用于 ACI 模式下的 Cisco Nexus 9000 系列交换机系统软件 请访问原文链接:https://sysin.org/blog/cisco-aci-16/ 查看最新版…

Cisco APIC 6.1(2f)F - 应用策略基础设施控制器

Cisco APIC 6.1(2f)F - 应用策略基础设施控制器Cisco APIC 6.1(2f)F - 应用策略基础设施控制器 Application Policy Infrastructure Controller (APIC) 请访问原文链接:https://sysin.org/blog/cisco-apic-6/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org思科…

[搬运自 qq 空间] 19 北大冬令营小结

PKU 冬令营19北大冬令营小结 北大冬令营刚刚结束 , 以下是这两天以来笔者的经历。 Day1 比赛日 上午开营仪式 , 整个过程大概就是讲了一下北大计算机学科有哪些优势 , 比较无趣。 12 : 40的时候来到机房准备考试 , 1 : 00钟时 , 比赛正式开始。 首先浏览了一下A题 , 是吉…

X3ctf 比赛 Write Up

X3ctf Write Up 1. Misc p11n-trophy(签到题): 题目描述:我们首先会得到这样一份证书:第一题签到题的答案就是证书下面正中间的“This certificate does not grant the rank of Master"。 trophy-plus + trophy-plus64: 这两道目描述一模一样其中一个flag是藏在certif…

python--用户意见

https://www.python.org/about/quotes/

虚拟记账系统之三种结算模式

虚拟记账系统作为近年来支付领域的创新产品,正成为企业资金管理和支付结算的重要工具。本文从支付断直连的背景出发,详细介绍了虚拟记账系统的三种结算模式:收单结算、归集直清和归集调拨,并深入探讨了这些模式在直播电商、企业资金管理等场景中的应用。从这篇文章开始,我…

RocketMQ实战—2.RocketMQ集群生产部署

大纲 1.什么是消息中间件 2.消息中间件的技术选型 3.RocketMQ的架构原理和使用方式 4.消息中间件路由中心的架构原理 5.Broker的主从架构原理 6.高可用的消息中间件生产部署架构 7.部署一个小规模的RocketMQ集群进行压测 8.如何对RocketMQ集群进行可视化的监控和管理 9.进行OS内…