大模型一体机行业内幕
DeepSeek大模型一体机特点:私有化部署、交付容易、价格低廉,适合内网IT改造和CIO们的创新选择,也是目前被疯抢的原因。
大模型一体机从功能上要分ABC三类:A类:主要是硬件就是机头+AI卡,组成的纯纯的AI硬件服务器。B类:在A类的技术上加上Deepseek模型和开发平台,比如dify,dbgpt等,组成一体机。C类:B类的基础上叠加一些应用,作为整体产品输出,比如知识库管理等等。
技术定义
满血版定义:671B参数的deepseek不管是V3/R1,只要满足671B参数就叫满血版。
满血版定义:671B参数的deepseek不管是V3/R1,只要满足671B参数就叫满血版。
满血版划分:通常可细分为:原生满血版(FP8计算精度)、转译满血版(BF16或者FP16计算精度)、量化满血版(INT8、INT4、Q4、Q2计算精度)等版本,但是大家宣传都不会宣传XX满血版,只会宣传满血版,大家选择一定要擦亮眼睛。
原生满血版:deepseek官方支持的FP8混合精度,不要怀疑,官方的我们认为就是最好的,个人认为,目前没有人比官方更懂deepseek。
转译满血版:因为官方的deepseek采用的是FP8混合精度,但是大部分的国产卡是不支持FP8精度的。所以要适配deepseek,采用BF16或者FP16来计算,这个方式理论上对精度影响很小,但是对计算和显存的硬件需求几乎增加一倍。
关于显存计算,如果要部署671B的官方版大模型,用FP8混合精度,最小集群显存是750GB左右;如果采用FP16或者BF16,大概需要1.4T以上。
目前从公开资料显示,支持FP8精度的国产AI芯片。只有算能、摩尔线程和瀚博半导体,这三家是公开资料显示宣称支持FP8,其他家没有明确公开资料支持FP8,因为如果自己芯片不支持宣传支持,会有法律麻烦。如果大家还知道其他家支持,也可以留言告诉小编。
量化满血版:很多厂家的AI卡只支持INT8、FP16、FP32等格式,如果用FP16,单机需要1.4T显存以上,绝大多数国产AI单机没有那么大显存,为了单台机器能跑671B deepseek,被逼无奈选择量化,量化就是通过减少计算精度,达到减少显存占用和提高吞吐效率的目的,当然任何量化都是以降低智商为代价的。
举个形象的例子,比如FP8我们说计算保留小数点后7位数字,INT8我们说计算保留数据点后2位数字。FP8的计算就是:3.1415926*3.1415926=9.8696040,IN8的计算精度 3.14*3.14=9.86 这两个结果我们认为近似等价,但是会发现FP8更精准,在大模型里我们近似认为精度越高,智商越高。所以我们近似认为FP8的智商更高。
这里面有一个争议点,很多人说BF16或者FP16计算的671B大模型的智商跟原版FP8智商一样,并没有降低,从原理上来说,确实可以保持一致,但是真正转译过程中会导致一些差异化,智商会有些许下降,智商下降多少取决于转译厂商的技术团队水平。
另外,关于671B转译和量化过程中智商降低多少的问题,是一个开放性问题,转译和量化一定是跟原版的智商是有区别的,智商下降多少,取决于技术团队转译和量化时的取舍和操作,比如同样做Q4量化,一个大牛和一个菜鸟两个人量化出来的671B模型智商肯定差异很大,所以说转译满血版一定比量化满血版智商高,这个认知是错误的。
原生满血版是最好的,其他版本一切皆有可能,是不是有可能转译出比原生满血版智商更高的满血版呢?也是有这个可能的,只是这种概率极低极低,有一个博士创业团队说他们比deepseek更了解deepseek架构,我也只能呵呵一笑。
deepseek满血版一体机满天飞,怎么区别他们优劣呢?这个问题特别简单,小编认为实践是检验真理的唯一标准。 小编测试过好几个国产deepseek一体机671B,很多都是智商降低版本。
测试方法:基于deepseek官宣线上版本和开源版本模型完全一致的现状。把同一个问题,先问官方deepseek官网地址,再问一体机,如果思考过程和答案一致,那说明是智商一致,否则就是降低的版本,至少比官网降低了智商。
我邀请好几个已经买过或者部署过deepseek 671B满血版的朋友,测试过他们的采购部署的满血版,邀请了5家,只有1家是测试答案跟官网一样,其余四家都跟官网不一致,明显就是低智商版本,我邀请的样本低智商占比80%(样本过少,不具有典型统计学意义,别抬杠),大家自行按照这个方法测试就行,如果测试智商低了,是不是找供应商秋后算账,各位看官自行觉得。
大模型一体机选型考虑因素
1、国产、信创:国产是指中国大陆生产,也就是说除了hp、dell类似的品牌,都叫国产; 信创又分全信创和半信创,全信创是指cpu和ai卡都是新创,半信创就是只管ai卡部分是信创,cpu不管。 2、需求:是为了尝鲜还是做样子还是?这种情况越便宜越好,体验为主;如果是为了业务用起来,就要提前梳理业务是否适合大模型?
3、并发:一般情况公司人数/20就是需求的并发数公式,可以同时在线,但是并发不能太多。
4、安全:大模型最重要的就是安全性堪忧,目前没有好的技术策略,最好就是每个部门部署一台大模型一体机,彼此访问不模型,比如财务部、法务部、合同部等等独立分开。 现实的大模型非常容易出现所有人问张三的薪资是多少,大模型都会准确的查询Hr数据库,给出精准答案。(行业难题,谁也别犟嘴,这事就是比较难处理,这也是deepseek落地最大的技术难题之一)
5、成本:钱够,肯定选择原生满血版,其次转译满血版,最后量化满血版,最最最后,选择蒸馏版。记住顺序就行啦,主要看钱。 目前最便宜的量化满血版9.8w,最贵的原生满血版H200 一台超过200w,所以要看钱。
6、实施:你是买ABC哪类产品体验?开箱即用还是自己有技术人员捣鼓一下,deepseek在企业内一定会跟erp、crm、oa等结合,减少很多人们的工作量。
7、运行:671B大模型运行有三种方式、显存运行、内存运行、硬盘运行,三种方式tokens/S速度不同,价格也不同,选择适合自己的即可。
原文链接:https://mp.weixin.qq.com/s/6pMa0k47MVD0pX8x9cf3pA