大模型硬件模型选型指南

news/2025/2/21 11:00:42/文章来源:https://www.cnblogs.com/sddai/p/18728850

大模型一体机行业内幕

DeepSeek大模型一体机特点:私有化部署、交付容易、价格低廉,适合内网IT改造和CIO们的创新选择,也是目前被疯抢的原因。


大模型一体机从功能上要分ABC三类:A类:主要是硬件就是机头+AI卡,组成的纯纯的AI硬件服务器。B类:在A类的技术上加上Deepseek模型和开发平台,比如dify,dbgpt等,组成一体机。C类:B类的基础上叠加一些应用,作为整体产品输出,比如知识库管理等等。
 
技术定义
满血版定义:671B参数的deepseek不管是V3/R1,只要满足671B参数就叫满血版。    
 
满血版划分:通常可细分为:原生满血版(FP8计算精度)、转译满血版(BF16或者FP16计算精度)、量化满血版(INT8、INT4、Q4、Q2计算精度)等版本,但是大家宣传都不会宣传XX满血版,只会宣传满血版,大家选择一定要擦亮眼睛。     
 
原生满血版:deepseek官方支持的FP8混合精度,不要怀疑,官方的我们认为就是最好的,个人认为,目前没有人比官方更懂deepseek。    
 
转译满血版因为官方的deepseek采用的是FP8混合精度,但是大部分的国产卡是不支持FP8精度的。所以要适配deepseek,采用BF16或者FP16来计算,这个方式理论上对精度影响很小,但是对计算和显存的硬件需求几乎增加一倍。   
 
关于显存计算,如果要部署671B的官方版大模型,用FP8混合精度,最小集群显存是750GB左右;如果采用FP16或者BF16,大概需要1.4T以上。   
 
目前从公开资料显示,支持FP8精度的国产AI芯片。只有算能、摩尔线程和瀚博半导体,这三家是公开资料显示宣称支持FP8,其他家没有明确公开资料支持FP8,因为如果自己芯片不支持宣传支持,会有法律麻烦。如果大家还知道其他家支持,也可以留言告诉小编。    
 
量化满血版:很多厂家的AI卡只支持INT8、FP16、FP32等格式,如果用FP16,单机需要1.4T显存以上,绝大多数国产AI单机没有那么大显存,为了单台机器能跑671B deepseek,被逼无奈选择量化,量化就是通过减少计算精度,达到减少显存占用和提高吞吐效率的目的,当然任何量化都是以降低智商为代价的。
 
举个形象的例子,比如FP8我们说计算保留小数点后7位数字,INT8我们说计算保留数据点后2位数字。FP8的计算就是:3.1415926*3.1415926=9.8696040,IN8的计算精度 3.14*3.14=9.86    这两个结果我们认为近似等价,但是会发现FP8更精准,在大模型里我们近似认为精度越高,智商越高。所以我们近似认为FP8的智商更高。    
 
这里面有一个争议点很多人说BF16或者FP16计算的671B大模型的智商跟原版FP8智商一样,并没有降低,从原理上来说,确实可以保持一致,但是真正转译过程中会导致一些差异化,智商会有些许下降,智商下降多少取决于转译厂商的技术团队水平   
 
另外,关于671B转译和量化过程中智商降低多少的问题,是一个开放性问题,转译和量化一定是跟原版的智商是有区别的,智商下降多少,取决于技术团队转译和量化时的取舍和操作,比如同样做Q4量化,一个大牛和一个菜鸟两个人量化出来的671B模型智商肯定差异很大,所以说转译满血版一定比量化满血版智商高,这个认知是错误的。   
 
原生满血版是最好的,其他版本一切皆有可能,是不是有可能转译出比原生满血版智商更高的满血版呢?也是有这个可能的,只是这种概率极低极低,有一个博士创业团队说他们比deepseek更了解deepseek架构,我也只能呵呵一笑。   
 
deepseek满血版一体机满天飞,怎么区别他们优劣呢?这个问题特别简单,小编认为实践是检验真理的唯一标准。 小编测试过好几个国产deepseek一体机671B,很多都是智商降低版本。   
 
测试方法:基于deepseek官宣线上版本和开源版本模型完全一致的现状。把同一个问题,先问官方deepseek官网地址,再问一体机,如果思考过程和答案一致,那说明是智商一致,否则就是降低的版本,至少比官网降低了智商。    
 
我邀请好几个已经买过或者部署过deepseek 671B满血版的朋友,测试过他们的采购部署的满血版,邀请了5家,只有1家是测试答案跟官网一样,其余四家都跟官网不一致,明显就是低智商版本,我邀请的样本低智商占比80%(样本过少,不具有典型统计学意义,别抬杠),大家自行按照这个方法测试就行,如果测试智商低了,是不是找供应商秋后算账,各位看官自行觉得。
 
大模型一体机选型考虑因素 
1、国产、信创:国产是指中国大陆生产,也就是说除了hp、dell类似的品牌,都叫国产;    信创又分全信创和半信创,全信创是指cpu和ai卡都是新创,半信创就是只管ai卡部分是信创,cpu不管。      2、需求:是为了尝鲜还是做样子还是?这种情况越便宜越好,体验为主;如果是为了业务用起来,就要提前梳理业务是否适合大模型? 
3、并发:一般情况公司人数/20就是需求的并发数公式,可以同时在线,但是并发不能太多。  
4、安全:大模型最重要的就是安全性堪忧,目前没有好的技术策略,最好就是每个部门部署一台大模型一体机,彼此访问不模型,比如财务部、法务部、合同部等等独立分开。    现实的大模型非常容易出现所有人问张三的薪资是多少,大模型都会准确的查询Hr数据库,给出精准答案。(行业难题,谁也别犟嘴,这事就是比较难处理,这也是deepseek落地最大的技术难题之一)   
5、成本:钱够,肯定选择原生满血版,其次转译满血版,最后量化满血版,最最最后,选择蒸馏版。记住顺序就行啦,主要看钱。    目前最便宜的量化满血版9.8w,最贵的原生满血版H200 一台超过200w,所以要看钱。   
6、实施:你是买ABC哪类产品体验?开箱即用还是自己有技术人员捣鼓一下,deepseek在企业内一定会跟erp、crm、oa等结合,减少很多人们的工作量。   
7、运行:671B大模型运行有三种方式、显存运行、内存运行、硬盘运行,三种方式tokens/S速度不同,价格也不同,选择适合自己的即可。
 
原文链接:https://mp.weixin.qq.com/s/6pMa0k47MVD0pX8x9cf3pA

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/887509.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek本地性能调优

对于本地模型的加载来说,除了使用KTransformer等工具进行指令集层面的优化之外,还可以调整模型加载层数,做一个简单的优化。这里提供了一个num_gpu和num_ctx参数调整的策略,实测Tokens性能最大可优化10倍左右。技术背景 大模型性能调优是一个很复杂的工程,涉及到很多细节,…

开箱即用!一条命令部署雷池WAF,安全从此“躺平”

作者:HACK之道Web应用已成为企业的核心入口,但随之而来的SQL注入、XSS攻击、爬虫窃密等问题层出不穷。传统WAF依赖规则库的被动防御模式,面对自动化工具和0day漏洞时显得捉襟见肘。长亭雷池WAF(SafeLine)凭借“动态防护”和“智能语义分析”两大核心技术,重新定义了Web应…

Beszel搭建和使用

官网 https://beszel.dev/zh/ 简介 Beszel 是一个轻量级的服务器监控平台,包含 Docker 统计信息、历史数据和警报功能。 它拥有友好的 Web 界面、简单的配置,并且开箱即用。它支持自动备份、多用户、OAuth 身份验证和 API 访问。环境查看 系统环境# cat /etc/redhat-release …

定制化流程,私有化未来:工作流管理软件的私有化转型之路

工作流管理软件私有化是指将工作流管理软件部署在组织内部的私有服务器或专有云环境中,以确保数据的安全性、隐私性和组织的完全控制权。以下是对工作流管理软件私有化的详细分析: 一、私有化的优势 数据安全: ○ 私有化部署确保所有数据存储在组织内部的服务器或私有云中,…

京东零售数据资产能力升级与实践

开篇 京东自营和商家自运营模式,以及伴随的多种运营视角、多种组合计算、多种销售属性等数据维度,相较于行业同等量级,数据处理的难度与复杂度都显著增加。如何从海量的数据模型与数据指标中提升检索数据的效率,降低数据存算的成本,提供更可信的数据内容和多种应用模式快速…

【稳定性】稳定性建设之依赖设计

背景 随着分布式微服务的发展,一个普通的应用可能会依赖于许多其他服务,这给系统的限流降级、优化改造等操作带来了困难。在没有明确强弱依赖关系的情况下,我们很难有效地进行这些操作。为了解决这个问题,强弱依赖治理成为了一种科学的手段。通过强弱依赖治理,我们可以持续…

牛客题解 | 反转链表-2

牛客输入输出题单题解题目 题目链接 描述 这是一篇针对初学者的题解,共用2种方法解决。 知识点:单链表 难度:一星 题解 方法一:构造链表 如果此类型的题出现在笔试中,如果内存要求不高,可以采用如下方法: 可以先用一个vector将单链表的指针都存起来,然后再构造链表。 此…

uni-app实现小程序复制功能失败

1.先准备好要实现粘贴复制的代码<view class="form_left"><text class="form_one">订单编号</text><text class="form_two">{{ order_id }}</text><text class="form_copy" @click="copy(order…

牛客题解 | 链表相加(二)

牛客输入输出题单题解题目 题目链接 题目主要信息:给定两个链表,每个链表中节点值都是0-9,每个链表就可以表示一个数字 将两个链表表示的数字相加,结果也存在链表中举一反三: 学习完本题的思路你可以解决如下题目: BM1.反转链表 BM86.大数加法 方法:反转链表法(推荐使用…

牛客题解 | 顺时针旋转矩阵

牛客输入输出题单题解题目 题目链接 题目主要信息:给定一个\(n*n\)的矩阵,返回其顺时针90度旋转后的结果举一反三: 学习完本题的思路你可以解决如下题目: BM97. 旋转数组 方法:倒置翻转(推荐使用) 知识点:矩阵转置 矩阵转置是将上三角矩阵元素与下三角矩阵元素依据对角线…

牛客题解 | 链表中倒数最后k个结点

牛客输入输出题单题解题目 题目链接 题目的主要信息:一个长度为\(n\)的链表,返回原链表中从倒数第k个节点至尾节点的全部节点 如果该链表长度小于k,请返回一个长度为 0 的链表举一反三: 学习完本题的思路你可以解决如下题目: BM4.合并有序链表 BM5.合并k个已排序的链表 BM…

打造专属任务管理利器:智慧工具私有化部署策略与实践

智慧任务管理工具私有化是指将智慧任务管理工具部署在组织内部的私有服务器或云环境中,以确保数据的安全性、隐私性和完全控制权。以下是对智慧任务管理工具私有化的详细解析: 一、私有化的优势 ● 数据安全:私有化部署确保所有数据存储在组织内部的服务器或私有云中,避免数…