显卡之争!英伟达和AMD下场互掐!GPU霸主地位是否能保?

大家好,我是二狗。

英伟达和AMD这两家芯片巨头掐起来啦!

事情的起因是,两周前AMD董事会主席兼CEO苏姿丰在一场活动中发布了用于生成式AI和数据中心的新一代Intinct MI300X GPU芯片加速卡。

单单发布显卡没啥问题,但是AMD声称MI300X芯片在推断 Meta 的 Llama 2700 亿参数模型时,能够实现比 H100 低 40% 的延迟。

这意味着AMD的MI300X芯片性能更优呗!

英伟达下场指责AMD

那英伟达作为GPU显卡的行业老大哥,听到之后哪能愿意啊。

所以,就在上周,英伟达特意发布一篇官方博客来证明 H100 具有顶级的推理性能。

英伟达博客表示:

一流的AI性能需要高效的并行计算架构、高效的工具堆栈和深度优化的算法。英伟达发布了开源 NVIDIA TensorRT-LLM,其中包括针对 NVIDIA H100 Tensor Core GPU 核心的 NVIDIA Hopper 架构的最新内核优化。这些优化使 Llama 2 70B 等模型能够在 H100 GPU 上使用加速 FP8 运算执行,同时保持推理精度。

而AMD在发布会上提到MI300X 芯片相比H100 GPU 更好的推理性能,但是AMD的测试没有使用优化软件,如果基准测试正确,H100 的推理速度将会快 2 倍。

简单来讲,英伟达的想表达意思就是,AMD 在基准测试时没有利用优化软件或 H100 对 FP8 数据类型的支持,而是在 FP16 上使用 vLLM 进行测试。一般来说,精度较低的数据类型会牺牲精度来换取性能。换句话说,英伟达表示 AMD 故意阻碍了H100的性能发挥。

英伟达在博客上还po出了具有8个 H100 GPU 的单台 NVIDIA DGX H100 服务器在 Llama 2 70B 型号上的实际测试性能。测试包括一次处理一个推理请求的“Batch-1”的结果,以及使用固定响应时间处理的结果。

英伟达声称,当使用其闭源 TensorRT LLM 框架和 FP8 进行基准测试时,H100的性能实际上是 MI300X 的两倍。

英伟达还认为,AMD 通过使用 把batch size 设置为1 来呈现性能的最佳情况,换句话说,只通过一次处理一个推理请求。英伟达认为这是不符合实际的,因为大多数云提供商都会用延迟来换取更大的batch size。

据英伟达称,使用英伟达的优化软件堆栈,具有 8 个加速器的 DGX H100 节点能够处理 14 个batch size,而具有 8 个 AMD MI300X 的类似节点则可以处理一个batch size。

AMD摆数据强势回击英伟达

在英伟达的上述博客发布一天之内,AMD也发布了博客进行回应,AMD声称自家的显卡确实具备行业领先的性能,而英伟达的基准测试并不是做的同类比较。

AMD指责英伟达进行的测试基准是不合理的:

  • 英伟达在 H100 上使用 TensorRT-LLM 进行测试,而不是 AMD 基准测试中使用的 vLLM;

  • 英伟达用 H100 上的 FP8 数据类型的性能和AMD MI300X GPU 上的 FP16 数据类型进行了比较;

  • 英伟达将AMD发布的性能数据从相对延迟数反转为绝对吞吐量;

AMD表示:

我们正处于产品升级阶段,我们不断寻找新的途径来利用 ROCM 软件和 AMD Instinct MI300 加速器释放性能。

我们发布会上提供的数据是在 11 月份测试记录的。自从11月份以来,我们已经取得了很大进展,并且很高兴分享我们突显这些成果的最新结果。

下图是AMD使用最新的MI300X运行Llama 70B的性能数据进行对比,蓝色是MI300X显卡的性能,灰色是H100显卡的性能。

很容易看出,在AMD的测试之下,无论是性能还是延迟,MI300X都要优于H100。

AMD则接着表示:“结果再次表明,即使使用 FP8 和 TensorRT-LLM,使用 FP16 的 MI300X 也可与 Nvidia 推荐的最佳性能设置的 H100 相媲美。”

显卡竞争的关键-软件栈优化

英伟达事后没有针对AMD的最新博客做出声明,但是英伟达和 AMD 的基准测试争论凸显了软件库和框架在提升AI性能方面所发挥的作用。

英伟达的主要论点之一是,AMD 通过使用 vLLM 而不是 TensorRT-LLM软件来测试,所以才导致 H100性能处于劣势。

英伟达于9月份宣布并于10月底发布 TensorRT-LLM,TensorRT-LLM组合了包括深度学习编译器、优化内核、预处理和后处理步骤以及多GPU和多节点通信原语等功能。

英伟达声称,使用优化后的软件在运行 60 亿个参数的 GPT-J 模型时,能够有效地将 H100 的推理性能提高一倍,而H100 在 Llama 2 70B 中的性能也提升了 77%。

AMD 在本月早些时候推出 ROCm 6 框架时也做出了类似的声明。AMD 声称,由于对 vLLM、HIP Graph 和 Flash Attention 的优化,其最新的 AI 框架能够将 LLM 性能提高 1.3 倍到 2.6 倍。且与在 ROCm 5 上运行的 MI250X 相比,在 ROCm 6新软件框架上运行的 MI300X 速度快了 8 倍。

AMD凭借“内存”取胜?

AI推理工作负载非常复杂,性能取决于FLOPS、精度、内存容量、内存带宽、互连带宽和模型大小等多种因素。

AMD本次最大的优势不是浮点性能,而是内存—— MI300X 的高带宽内存 (HBM) 速度提高了55%,速度为 5.2TB/秒,容量为 192GB,是 H100 的 80GB 的两倍多。 这对于AI推理非常重要,因为模型的大小与运行它所需的内存量成正比。在 FP16 中,每个参数有 16 位或 2 个字节。因此,对于 Llama 70B,需要大约 140GB+ 的 KV 缓存空间,这有助于加速推理工作负载,但需要额外的内存。

AMD 的 MI300X 平台可支持具有多达 8 个加速器的系统,HBM 总量为 1.5TB,而英伟达的 HGX 平台最高才 640 GB。 正如 SemiAnalysis 在其 MI300X 发布报道中指出的那样,在 FP16 上,具有 1760 亿参数的Bloom 模型需要 352GB 内存,从而为 AMD 留下更多内存以适应更大的batch size大小。

英伟达彻底慌了

英伟达一般是不会和AMD掐架的,但这次可能是真的慌了。

因为在AMD的发布会当天,Meta和微软表示,他们将购买使用AMD最新的AI芯片 Instinct MI300X,这意味着在英伟达显卡缺货的情况下,AMD应成为最优先的替代品。

下图是研究公司 Omidia 最近的一份报告,显示了英伟达2023年Q3季度Top12的H100显卡购买客户:

而这些大客户都有可能面临流失的风险。

夕小瑶科技说前不久刚写了一篇文章「英伟达危机大爆发!一夜之间,四面楚歌 」,深度分析了英伟达现在面临的对手和危机(感兴趣的朋友可以移步查看)。

1、AMD正面挑战英伟达显卡霸主地位;

2、微软自研AI芯片,软件硬件两手抓;

3、谷歌坚持自用TPU,打造下一代最强TPU;

4、美国政府对英伟达的限令,禁售中国大陆,将失去百度阿里抖音客户;

5、OpenAI等创业公司正在研发自己的AI芯片。

行业会等待英伟达吗?英伟达的“显卡蛋糕”将被分食多少?

答案或许不乐观,但是英伟达依旧可能是Top赢家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/295823.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1857_什么是AEC-Q100认证

Grey 全部学习内容汇总: GitHub - GreyZhang/g_hardware_basic: You should learn some hardware design knowledge in case hardware engineer would ask you to prove your software is right when their hardware design is wrong! 1857_什么是AEC-Q100认证 经…

生成式AI大爆发,2024年人工智能3大发展趋势预测

人工智能(AI)多年来一直是技术界讨论的热门话题,但在2023年,它完全抓住了大众的注意力和想象力。ChatGPT和类似的技术让外行人也能接触到人工智能,生成式AI以前所未有的速度从小众走向主流。在大家都普遍认为AI存在着能力局限性的情况下&…

天文与计算机:技术的星辰大海

天文与计算机:技术的星辰大海 一、引言 在人类的历史长河中,天文学与计算机技术这两个领域似乎相隔甚远,然而在科技的推动下,它们却逐渐走到了一起,为人类对宇宙的探索开辟了新的道路。天文观测的复杂度与数据量随着…

推荐算法架构7:特征工程(吊打面试官,史上最全!)

系列文章,请多关注 推荐算法架构1:召回 推荐算法架构2:粗排 推荐算法架构3:精排 推荐算法架构4:重排 推荐算法架构5:全链路专项优化 推荐算法架构6:数据样本 推荐算法架构7:特…

中级软件设计师-note-2

一个逆向思维的例子是 “当遇到一个问题时,通常人们会想办法解决这个问题。但逆向思维是指反过来考虑,即想办法制造更多的问题。 举个例子,假设有一个团队正在开发一款新的智能手机。传统的思维方式可能是专注于如何增加手机的功能&#xf…

Log4net 教程

一、Log4net 教程 在CodeProject上找到一篇关于Log4net的教程:log4net Tutorial,这篇博客的作者是:Tim Corey ,对应源代码地址为: https://github.com/TimCorey/Log4netTutorial,视频地址为:Ap…

安装Kubernetes1.23、kubesphere3.4、若依项目自动打包部署到K8S记录

1.安装kubernetes1.23详细教程 kubernetes(k8s)集群超级详细超全安装部署手册 - 知乎 2.安装rancher动态存储 kubectl apply -f https://raw.githubusercontent.com/rancher/local-path-provisioner/master/deploy/local-path-storage.yaml3.安装kubesphere3.4 准备工作 您…

matlab时间转换

采集的GNSS数据是10hz的。 data(选取其中一部分)如下: (1)char类型 formatOut yyyy-mm-dd HH:MM:SS; str datestr(data,formatOut); str如下: (2)double类型 DateVector dat…

小白入门之安装NodeJS

重生之我在大四学JAVA 第五章 安装NodeJS 如果你在购买我闲鱼的程序,请尽量使用node14版本 修改安装路径 接着傻瓜式NEXT 测试是否安装成功 如果上面没提示版本号,就按照前两章配置环境变量步骤配置下环境变量 设置镜像地址 npm config set re…

pip 常用指令 pip cache 命令用法介绍

📑pip 常用命令归类整理 pip cache 是一个用于管理pip缓存的命令。pip是Python的包管理器,用于安装和管理Python包。当你使用pip安装一个包时,pip会首先在其缓存中查找该包。如果在缓存中找到,pip将从缓存中安装该包,…

【Filament】纹理贴图

1 前言 本文主要介绍使用 Filament 实现纹理贴图,读者如果对 Filament 不太熟悉,请回顾以下内容。 Filament环境搭建绘制三角形绘制矩形绘制圆形绘制立方体 Filament 纹理坐标的 x、y 轴正方向分别朝右和朝上,其 y 轴正方向朝向与 OpenGL ES…

C语言指针(下)

前言: 上文我们已经学习了指针的基本概念、内存单元地址的产生,以及指针和指针的类型。这时我们对指针已经有了一个初步的了解,接下来我们将继续深入的学习指针用法。 一. 野指针 (一)概念: 野指针就是指…