大模型硬件模型选型指南

news/2025/2/21 11:00:42/文章来源:https://www.cnblogs.com/sddai/p/18728850

大模型一体机行业内幕

DeepSeek大模型一体机特点：私有化部署、交付容易、价格低廉，适合内网IT改造和CIO们的创新选择，也是目前被疯抢的原因。

大模型一体机从功能上要分ABC三类：A类：主要是硬件就是机头+AI卡，组成的纯纯的AI硬件服务器。B类：在A类的技术上加上Deepseek模型和开发平台，比如dify，dbgpt等，组成一体机。C类：B类的基础上叠加一些应用，作为整体产品输出，比如知识库管理等等。

技术定义

满血版定义：671B参数的deepseek不管是V3/R1,只要满足671B参数就叫满血版。

满血版划分：通常可细分为：原生满血版（FP8计算精度）、转译满血版（BF16或者FP16计算精度）、量化满血版（INT8、INT4、Q4、Q2计算精度）等版本，但是大家宣传都不会宣传XX满血版，只会宣传满血版，大家选择一定要擦亮眼睛。

原生满血版：deepseek官方支持的FP8混合精度，不要怀疑，官方的我们认为就是最好的，个人认为，目前没有人比官方更懂deepseek。

转译满血版：因为官方的deepseek采用的是FP8混合精度，但是大部分的国产卡是不支持FP8精度的。所以要适配deepseek，采用BF16或者FP16来计算，这个方式理论上对精度影响很小，但是对计算和显存的硬件需求几乎增加一倍。

关于显存计算，如果要部署671B的官方版大模型，用FP8混合精度，最小集群显存是750GB左右；如果采用FP16或者BF16，大概需要1.4T以上。

目前从公开资料显示，支持FP8精度的国产AI芯片。只有算能、摩尔线程和瀚博半导体，这三家是公开资料显示宣称支持FP8，其他家没有明确公开资料支持FP8，因为如果自己芯片不支持宣传支持，会有法律麻烦。如果大家还知道其他家支持，也可以留言告诉小编。

量化满血版：很多厂家的AI卡只支持INT8、FP16、FP32等格式，如果用FP16，单机需要1.4T显存以上，绝大多数国产AI单机没有那么大显存，为了单台机器能跑671B deepseek，被逼无奈选择量化，量化就是通过减少计算精度，达到减少显存占用和提高吞吐效率的目的，当然任何量化都是以降低智商为代价的。

举个形象的例子，比如FP8我们说计算保留小数点后7位数字，INT8我们说计算保留数据点后2位数字。FP8的计算就是：3.1415926*3.1415926=9.8696040,IN8的计算精度 3.14*3.14=9.86 这两个结果我们认为近似等价，但是会发现FP8更精准，在大模型里我们近似认为精度越高，智商越高。所以我们近似认为FP8的智商更高。

这里面有一个争议点，很多人说BF16或者FP16计算的671B大模型的智商跟原版FP8智商一样，并没有降低，从原理上来说，确实可以保持一致，但是真正转译过程中会导致一些差异化，智商会有些许下降，智商下降多少取决于转译厂商的技术团队水平。

另外，关于671B转译和量化过程中智商降低多少的问题，是一个开放性问题，转译和量化一定是跟原版的智商是有区别的，智商下降多少，取决于技术团队转译和量化时的取舍和操作，比如同样做Q4量化，一个大牛和一个菜鸟两个人量化出来的671B模型智商肯定差异很大，所以说转译满血版一定比量化满血版智商高，这个认知是错误的。

原生满血版是最好的，其他版本一切皆有可能，是不是有可能转译出比原生满血版智商更高的满血版呢？也是有这个可能的，只是这种概率极低极低，有一个博士创业团队说他们比deepseek更了解deepseek架构，我也只能呵呵一笑。

deepseek满血版一体机满天飞，怎么区别他们优劣呢？这个问题特别简单，小编认为实践是检验真理的唯一标准。小编测试过好几个国产deepseek一体机671B，很多都是智商降低版本。

测试方法：基于deepseek官宣线上版本和开源版本模型完全一致的现状。把同一个问题，先问官方deepseek官网地址，再问一体机，如果思考过程和答案一致，那说明是智商一致，否则就是降低的版本，至少比官网降低了智商。

我邀请好几个已经买过或者部署过deepseek 671B满血版的朋友，测试过他们的采购部署的满血版，邀请了5家，只有1家是测试答案跟官网一样，其余四家都跟官网不一致，明显就是低智商版本，我邀请的样本低智商占比80%（样本过少，不具有典型统计学意义，别抬杠），大家自行按照这个方法测试就行，如果测试智商低了，是不是找供应商秋后算账，各位看官自行觉得。

大模型一体机选型考虑因素

1、国产、信创：国产是指中国大陆生产，也就是说除了hp、dell类似的品牌，都叫国产；信创又分全信创和半信创，全信创是指cpu和ai卡都是新创，半信创就是只管ai卡部分是信创，cpu不管。 2、需求：是为了尝鲜还是做样子还是？这种情况越便宜越好，体验为主；如果是为了业务用起来，就要提前梳理业务是否适合大模型？

3、并发：一般情况公司人数/20就是需求的并发数公式，可以同时在线，但是并发不能太多。

4、安全：大模型最重要的就是安全性堪忧，目前没有好的技术策略，最好就是每个部门部署一台大模型一体机，彼此访问不模型，比如财务部、法务部、合同部等等独立分开。现实的大模型非常容易出现所有人问张三的薪资是多少，大模型都会准确的查询Hr数据库，给出精准答案。（行业难题，谁也别犟嘴，这事就是比较难处理，这也是deepseek落地最大的技术难题之一）

5、成本：钱够，肯定选择原生满血版，其次转译满血版，最后量化满血版，最最最后，选择蒸馏版。记住顺序就行啦，主要看钱。目前最便宜的量化满血版9.8w，最贵的原生满血版H200 一台超过200w，所以要看钱。

6、实施：你是买ABC哪类产品体验？开箱即用还是自己有技术人员捣鼓一下，deepseek在企业内一定会跟erp、crm、oa等结合，减少很多人们的工作量。

7、运行：671B大模型运行有三种方式、显存运行、内存运行、硬盘运行，三种方式tokens/S速度不同，价格也不同，选择适合自己的即可。

原文链接：https://mp.weixin.qq.com/s/6pMa0k47MVD0pX8x9cf3pA