五分钟带你看懂 NVIDIA 和 AI 的未来

news/2025/3/21 16:15:52/文章来源:https://www.cnblogs.com/jellyai/p/18782625

              (配图:Photo by BoliviaInteligente on Unsplash)

前言:2025 年 3 月 18 日,在美国加州圣何塞举行的 GTC 2025 大会上,NVIDIA CEO 黄仁勋发表了长达两小时的主题演讲,详细介绍了 NVIDIA 的未来路线图。 这场被誉为“AI 超级碗”的盛会,吸引了全球开发者、创新者和行业领导者的广泛关注。 黄仁勋在演讲中宣布了多项重大创新,包括新一代 AI 芯片 Blackwell Ultra 的发布、面向机器人的 GR00T N1 AI 模型的推出,以及与通用汽车在自动驾驶领域的合作。 他还强调,未来 AI 计算需求将呈指数级增长,预计到 2028 年,数据中心资本支出将超过 1 万亿美元。 这次演讲不仅展示了 NVIDIA 在 AI 硬件、软件、机器人和自动驾驶等领域的最新进展,也为行业未来的发展指明了方向。

如果你对 AI 或投资有一点点兴趣,你应该读一下这篇文章。
NVIDIA 的 CEO 黄仁勋昨天在 GTC 大会上做了一场两小时的主题演讲,介绍了 NVIDIA 的未来路线图。这场大会被称为“AI 界的伍德斯托克”。短短两小时,涵盖了三年份的信息,不过大多数人听不懂他用了哪些术语和行业黑话。
那么,真正重要的核心信息是什么?哪些内容会决定这个行业未来的发展?
如果 NVIDIA 打个喷嚏,AI 产业就会感冒。这里是你需要了解的 AI 硬件、软件、机器人和投资的未来。
重大决定已经做出
这次的发布会内容可以分成四个主要的营收板块:

  1. AI 数据中心硬件业务
  2. HPC(高性能计算)数据中心业务
  3. 消费级硬件业务
  4. 其他收入来源,主要是机器人和自动驾驶
    我们从最后一个开始说起。

机器人和自动驾驶
NVIDIA 早就开始高调宣传 AI 机器人,或者说他们叫的“物理 AI”。他们的布局可以分成三部分:

  1. 他们想要训练控制机器人的 AI 模型
  2. 他们想要打造机器人训练的虚拟环境
  3. 他们想要提供训练数据
    换句话说,他们要插手 AI 机器人市场的所有环节。
    针对第一点,他们发布了 Gr00t N1,一个机器人基础模型。它采用双模型架构,作为机器人运行的大脑。
    这个架构和 FigureAI 最近提出的思路类似(我之前在 Medium 上写过相关内容)。本质上,它是一个视觉-语言-动作 AI 模型,能够接收一系列图像帧和机器人状态(机器人在环境中的位置),然后决定下一步动作。

                  (配图:Source: NVIDIA)

此外,他们计划用 Omniverse 和 Isaac Gym 来提供训练环境。正如我之前解释的,机器人不在现实世界中训练,原因有两个:

  1. 成本太高
  2. 训练速度不能加快(你不能让多个机器人同时在物理世界训练)
    所以,我们用模拟环境来尽可能接近现实世界,在虚拟环境里训练 AI 模型,然后再一次性部署到真实机器人身上(完全不需要物理训练)。
    第三个亮点是他们提出了一个非常有趣的想法:用 AI 生成新的合成数据(由其他 AI 生成的数据)来训练机器人。通过 Cosmos 世界模型,这个 AI 可以生成机器人没有经历过的替代场景(也是在模拟环境里),让机器人接触更多的情况,学到更多东西。
    值得注意的是,Cosmos 世界模型和这种用合成数据继续训练 AI 的方法,也是自动驾驶技术训练的关键。因此,NVIDIA 也借此宣布了与通用汽车的合作,接手 GM 刚刚放弃的 Cruise 机器人出租车业务,为他们的自动驾驶车队提供技术支持。
    核心结论 #1: 机器人市场可能会是 AI 最大的市场,NVIDIA 正在巩固自己的领先地位(先是在模拟环境,现在是 AI 模型和合成数据)。
    但目前,这个业务板块的收入基本为零,所以对投资者来说,它仍然是一个高风险/高回报的赌注。

NVIDIA 笔记本和工作站
虽然 NVIDIA 现在大力押注分布式计算(后面会详细说),但他们也在积极进军消费级硬件市场。
他们发布了两款新设备:

  1. NVIDIA DGX 工作站,一台台式计算机,拥有惊人的 789GB 内存(其中 288GB 是 HBM 内存,市场上最快的带宽),FP4 计算性能达到 20 Petaflops(每秒 2 万万亿次计算),内存带宽 8TB/s。
  2. NVIDIA DGX Spark,一个可以连接到笔记本的便携计算设备,计算性能达到 1000 TOPS,拥有 128GB 统一内存,但带宽只有 276GB/s。
    简单来说,这些都是为 AI 任务设计的个人电脑,算是 NVIDIA 对苹果上周发布的 Mac Studio M4 Max 和 M3 Ultra 电脑的回应。
    它们有什么共同点?
    计算能力强、内存大、内存传输速度快,这些特性对 AI 任务来说很重要(说实话,除了 AI 任务之外,普通用户用不上)。
    核心结论 #2: NVIDIA 又开辟了一个新收入板块。随着小型基础模型的进步,越来越多 AI 从业者会选择本地运行开源模型,这个市场可能会有很大增长空间。
    不过目前来看,除了苹果,可能也就 NVIDIA 能在这个市场里分一杯羹了(至于市场有多大,还是个未知数,因为这些设备太贵了)。

HPC 数据中心业务
这里就开始有点让人失望了。NVIDIA 毫不犹豫地把 HPC(高性能计算)市场拱手让给 AMD。接下来的 GPU 产品会减少 FP64 ALU 单元的比例,而是更多地转向低精度计算。
简单来说,HPC 和 AI 计算的核心区别是 精度:
• AI 计算更倾向于 低精度(每个参数占用的内存更少)
• HPC 计算(比如复杂的物理模拟)需要 高精度,比如 FP64(每个参数占 8 字节内存)
但问题是,芯片的面积有限,NVIDIA 选择把 FP64 计算单元减少,把更多面积留给 AI 计算(FP16/FP8/INT4)。
这一策略实际上是在告诉 AMD:“HPC 市场归你了,我们去赚 AI 的钱。”
AMD 现在需要做出选择:是继续在 AI 领域跟 NVIDIA 硬碰硬,还是专注于 HPC 领域,放弃 AI 市场的竞争力?
核心结论 #3: NVIDIA 相当于和 HPC 说了声“我们不合适”,然后头也不回地奔向 AI,因为 AI 现在是最热门的领域。
AI 数据中心业务
这里才是最关键的部分,NVIDIA 的策略透露出了两点信息:

  1. 摩尔定律不再适用了
  2. 我们正在进入一个“推理为主”的世界
    科技正逼近自然极限
    虽然听起来有点夸张,但 NVIDIA 确实正撞上“自然的墙”。
    就像前面说的,我们正在逼近 功率密度的极限,也就是说,每单位面积的计算能力已经接近极限。
    由于芯片制造工艺的限制,NVIDIA 现在只能通过 芯粒(chiplet) 架构来提升算力,把多个计算单元封装在一起。
    然而,Blackwell GPU 已经把 两个最大尺寸的芯片封装到一起 了,也就是说,NVIDIA 已经几乎摸到这个架构的天花板。
    这时候,NVIDIA 其实只有两个方向可以提升计算能力:
  3. 缩小晶体管尺寸 —— 计算是靠逻辑电路和晶体管完成的,晶体管越小,计算单元就能塞进越多。
  4. 增加芯片封装数量 —— 虽然单个芯片的大小受限,但理论上可以一直往一起拼芯片(但这也是工程界最难的挑战之一)。
    理解了这一点,我们再来看 NVIDIA 的 AI 计算路线图。

当计算不再是主角
NVIDIA 现在全力押注推理计算。
简单来说,NVIDIA 认为 AI 计算的主要负载将是推理(运行 AI 模型),而不是训练。
他们的最新 GPU 产品就反映了这一趋势。
首先,他们发布了 Blackwell Ultra NVL72 服务器机架,特点包括:
• 1.1 Exaflops 的 FP4(半字节精度)推理算力(1 Exaflop = 每秒 1 百万万亿次计算)
• 专门针对 AI 注意力机制优化的计算单元(AI 模型的核心)
• 20TB 的 HBM 内存 + 40TB 的高速存储,比上一代 Blackwell 增加 1.5 倍
• 14.4TB/s 的内存带宽

为什么说这次发布的产品专注于推理计算?主要有两个原因:

  1. 它们的算力比当前 Blackwell 提高了 50%,但完全放弃了 FP64 计算单元,意味着 HPC 彻底被放弃,全面转向 AI 计算(低精度计算)。
  2. 他们把单个 GPU 的 HBM 内存从 192GB 提高到 288GB,主要是为了适配更大的模型,并且支持更大的 KV Cache(缓存 AI 推理过程中的关键数据,减少重复计算)。
    但如果我们再往未来看,这个趋势就更明显了。
    他们还公布了下一代 AI 计算平台:Vera Rubin(以发现暗物质的天文学家命名)。
    相比 Blackwell Ultra,Vera Rubin:
    • 计算能力提高 3.3 倍,其中一部分是因为晶体管从 4nm 缩小到 3nm,提升了功率密度。
    • 每块 GPU 仍然使用相同的 HBM 堆叠,但升级到了 HBM4,内存带宽提升 2 倍。

不过,最令人震惊的还是下一款产品: 一台服务器机架塞进了 576 块 GPU,计算能力是 Blackwell Ultra 的 14 倍(而 Blackwell Ultra 现在都还没开始量产)。

在这个版本中,NVIDIA 把单个 GPU 的封装数量从 2 个提升到了 4 个,总共 1TB 的内存,比当前 Blackwell 增加 6 倍。
注意这个模式了吗?

核心结论 #4:
NVIDIA 不仅在增加计算能力(通过增加 GPU 数量、缩小晶体管尺寸来提升功率密度),更重要的提升在于内存,因为推理计算的最大瓶颈是内存带宽。
这一点说明 NVIDIA 认为AI 推理将成为计算负载的核心。
但为什么内存对推理计算这么重要?
简单来说,推理计算比训练计算的算术强度(arithmetic intensity)更低。
(算术强度 = 计算过程中用于真正计算的能量 vs. 用于数据传输的能量)
换句话说,如果你的算术强度低,那 GPU 会花更多的能量在数据搬运上,而不是计算上。
因此,NVIDIA 正在努力提升内存性能,从两个方向:

  1. 增加内存容量(能支持更大的 AI 模型和更大的缓存,从而提升处理能力)
  2. 提升内存传输速度(减少数据传输时间,让 GPU 的计算单元尽可能少“闲着”)

NVIDIA 的战略透露了什么?
综合来看,NVIDIA 其实已经告诉了我们他们的核心判断,而这些决定了 AI 产业未来的走向。
主要有五个关键点:

  1. NVIDIA 认为 AI 模型会继续变大
    但这一点我持保留意见。虽然确实有越来越多的大模型,但它们主要是用来训练更小的模型,而不是直接部署。NVIDIA 能否让更大的模型成本降低到可以广泛应用,还是个未知数。
  2. 功率密度的极限已近,突破越来越难
    他们已经快碰到物理极限,所以只能依靠更小的晶体管和更复杂的封装技术。
  3. 他们全力押注“推理 AI”
    下一代 AI 模型主要依赖更强的推理能力,也就是“想得更久、算得更多”来提升智能。如果推理 AI 失败,那 NVIDIA 的路线图就会彻底崩塌。(不过我个人认为推理 AI 不会失败。)
  4. 他们相信注意力机制仍然是 AI 的核心
    NVIDIA 在计算单元中加入了专门优化注意力机制的 ALU(受到 Etched.AI 等创业公司的影响)。这一点说明,他们认为 AI 未来不会有太大的算法革新,而是会基于当前的 Transformer 框架继续演进。
  5. AMD 该怎么应对?
    AMD 现在有两条路:
    o 继续在 HPC 市场深耕,放弃 AI 计算的部分市场(因为 NVIDIA 基本独占 AI 硬件市场)。
    o 跟 NVIDIA 正面刚,全面优化 AI 计算性能。
    但 AMD 在 AI 计算的硬件网络层面不如 NVIDIA,所以他们可能会选择 继续稳住 HPC,同时针对小规模 AI 推理市场做优化(我个人也认为小规模推理会非常普遍)。

总结
从 NVIDIA 这次的发布会可以看出,他们的战略核心是:
• AI 计算会以推理为主
• 硬件发展会越来越依赖内存,而不是纯粹的计算能力
• 算力增长的瓶颈在于芯片封装和功率密度
• NVIDIA 认为 AI 的核心算法已经基本定型,不会再有大变化
我个人比较认可 NVIDIA 的判断。
但你怎么看?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/901928.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初识 WebSocket 协议

什么是 WebSocket WebSocket 是一种网络通信协议,是 HTML5 开始提供的一种在单个 TCP 连接上进行全双工通信的协议。WebSocket 属于应用层协议,它基于 TCP 传输协议,并复用 HTTP 的握手通道。 为什么出现 WebSocket 我们已经拥有了 HTTP 协议,为什么还要搞出一套 WebSocket…

易基因:WGBS+ChIP-seq技术揭示Cdx2转录因子在发育与稳态中的动态结合机制|NC/IF14.7

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 Cdx2是一个关键的转录因子,在小鼠肠道上皮细胞的发育过程中起着决定性的作用。它在胚胎期和成年期的肠道上皮细胞中都有表达,但其结合的基因组位点在发育和成年期有所不同。DNA甲基化是一种表观遗传修饰,通…

FALL

FALL 信息收集 扫描目标主机ip ┌──(root㉿kali)-[~] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:84:b2:cc, IPv4: 192.168.158.143 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.158.1 00:50:56:c0:0…

信创龙头股在政策支持下的投资机会解读

信创产业,即信息技术应用创新产业,旨在实现信息技术领域的自主可控,减少对国外技术的依赖,保障国家信息安全。近年来,随着政策的大力支持,信创产业发展势头迅猛,信创龙头股也备受投资者关注。在政策东风的助力下,信创龙头股蕴含着丰富的投资机会,值得深入剖析。 政策支…

通过 INFINI Console 集中管理极限网关配置

之前有做过介绍实现极限网关(INFINI Gateway) 配置动态加载,这是一个 Gateway 实例的操作,直接在服务器上修改配置文件。如果有多个 Gateway 实例需要调整,登录多台主机修改配置文件就有些繁琐,有没有简便的方法呢? 答案是: 当然有! INFINI Gateway 有配套的管理页面,…

如何精准控制生产成本?8年生产主管告诉我掌握这些底层逻辑!

你是不是常常听到“控制成本”这个词,但却搞不清楚到底应该从哪里入手? 其实,成本控制并不是简单的削减支出,而是要在每个环节上做到精益求精。 作为一名有8年经验的生产主管,我可以告诉你,成本控制的关键在于对生产过程中的每一环节都要有清晰的了解和精准的把控。下文介…

CIMCO Edit 2024软件下载与安装教程

CIMCO Edit 2024是Cimco Integration公司推出的一款强大的数控程序编辑器,可帮助用户进行存储和检索NC程序、NC程序优化、后处理、以及快速NC程序仿真,它拥有强大而实用的数控编辑功能、文件的智能比较、刀位轨迹的三维模拟、DNC传输等强大功能,可帮助用户更快捷的完成NC程序…

FunASR: 让AI听懂你的声音

分享一个语音识别黑科技——开源免费的FunASR!我们先看下Funasr的语音识别效果。第一个是识别MP4视频文件。第二个是,电话语音实时识别。FunASR有两个识别引擎,离线识别 和 实时识别。 离线识别引擎,主要用途是对录音文件进行转写,得到文本结果。 典型的使用场景:会议录音…

启航杯writeup

启航杯writeup 一、web 1.Easy_include题解打开网址得到php代码,发现存在可以通过伪协议来绕过过滤​ 2.构造伪协议 ​ 命令会反向输出所有以fl开头的文件内容输出得到的内容。 ?file=data://text/plain,<?=system(tac fl*);?>​ 3.得到flag2.PCR(文件上传请求)…

使用ArgoCD管理Kubernetes部署指南

对于寻求利用云原生技术力量的组织来说,高效管理 Kubernetes 部署至关重要。ArgoCD 是一款针对 Kubernetes 的声明式 GitOps 持续交付工具,它是一种强大的解决方案。它有助于根据存储在 Git 存储库中的配置自动部署应用程序,从而使 Kubernetes 集群中的应用程序状态与 Git 中…

DeepC2—基于DeepSeek的C2平台

蹭个DeepSeek热点最近DeepSeek很火,蹭个热点,前几天搞了个自动生成工具的网站,有模有样吧,作用的话看看就行,网上绝大部分所谓的Agent也就这样...

3.19 CW 模拟赛 T3. 软件工程

前言 策略肯定是锅了, 基础上需要对策略进行一些修改 喵了个咪的最终还是要针对考试 谢特 某吴姓同学的策略是非常适合我的, 在它的基础上, 我们考虑进行一些本土化 首先花 \(20 \textrm{min}\) 思考每道题, 也就是每道题严格 \(5 \textrm{ min}\) 首先按照能拿到的 \(\rm{subt…