英伟达即将压缩AI模型的成本

news/2025/1/14 10:09:56/文章来源:https://www.cnblogs.com/jellyai/p/18670218

在CES上,英伟达展示了一些有趣的新产品,其中最亮眼的是黄仁勋的新皮夹克。我的意思是,看看那件夹克:这是技术发布会还是时尚秀?

你不觉得惊艳吗?

说实话,我有点惊讶为什么更多人没有提到这个。这是黄仁勋迄今为止最棒的皮夹克。

当然,还有其他东西,比如全新的RTX 50系列。令人惊讶的是,大多数相关报道对它们的评价都很正面。我特别喜欢在Linus Tech Tips视频中的这条评论:

“因为就像有人指出的那样,50系列相较于40系列确实性价比更高,但如果跟30系列比就不行了。我觉得英伟达清楚新GPU的需求正在下降。”

在发布会上,他们展示了《赛博朋克》以240帧/秒的速度在8K分辨率下运行。说真的?8K?有人真的在8K分辨率下玩游戏吗?况且《赛博朋克》是2020年发布的,难道就没有更好的游戏来展示50系列的性能吗?

我不觉得会有很多人愿意购买这些新显卡,老款显卡已经足够用了,因此价格可能会下降。而且许多改进都体现在软件上,尤其是DLSS技术,而他们故意将其限制在新的50系列上。

但我看了评论,有一个值得注意的批评:显存最高仅16GB。哦,除了5090,如果你愿意花两千美元买一张显卡。但对于普通人来说,显存上限就是16GB。有人指出,这并不算多。

特别是在采用统一内存(GPU和CPU共享内存)的机器上,这种系统效率更高,因为内存浪费更少。在这样的系统中,我的M1 Air和Steam Deck都只有16GB统一内存。Steam Deck的内存规格和一张售价一千美元却没有电脑的GPU一样。这真是让人难过。

为什么在内存上这么小气?嗯,部分原因是英伟达的定价过高。AMD的显卡在相同价格下有24GB显存,我真不明白为什么大家这么喜欢英伟达。我一直避开它们,因为我总是遇到Nvidia驱动的问题。

但我觉得英伟达削弱显存还有另一个原因:不让你用它运行大型LLM(大语言模型)。大型语言模型是最新AI模型的基础,需要消耗大量显存。英伟达宁愿你买两个产品,也不愿让一张显卡搞定所有事情。虽然我通常会抱怨,但他们专用的LLM机器确实令人印象深刻。让我们来看看Project Digits。

Project Digits是一台紧凑的Linux机器,预装了所有炫酷的英伟达AI软件。可以把它想象成加强版的Mac mini。他们甚至展示了这台机器的图片。

有趣的是,如果你放大图片,可以发现这是AI生成的。全球最有价值的公司用AI取代了某人的工作。这种想法也只有黄仁勋能爱。要在某人桌上放一台机器并拍张照片有多难?前几天我看到有人谈论他们的桌面配置,却发了一张随机AI生成的图片。你在干什么?如果你谈桌面配置,我期望看到桌面的真实照片,而不是一些AI胡搞的东西。唯一可能的原因是,你对自己的桌面配置不自信。那么我为什么要看你的文章?

言归正传,Project Digits配备了4TB NVMe存储、128GB统一内存和最新的Blackwell架构,售价3000美元。比GTX 5090贵不了多少。这也让人更加意识到5090性价比有多差。

另外,随便说说,如果你配置一台Mac mini,选择M4 Pro芯片、64GB内存和4TB存储,价格甚至比Project Digits还贵。

升级价格真是相当吓人,对吧?

英伟达声称Project Digits可以运行2000亿参数的模型,如果你连接两台设备,可以运行4050亿参数的模型。4050亿,这是个非常精确的数字。为什么用这个数字?因为这是最大Llama模型的参数规模。英伟达基本在说:“现在你可以在家里运行最新的Llama模型,而不需要为服务器支付高额费用。”

之前的成本是多少?这全是保密信息,但我们知道AWS的P5实例每小时收费98美元,相当于每天2354美元。而两台Project Digits的成本是6000美元。如果你买两台,3天就可以收回成本。

你可能认为P5是过度配置。不过我查了一些帖子:

也许不是。人们经常引用的价格显然比两台Project Digits更高。

可以肯定地说,Project Digits将彻底改变AI定价游戏。我预计公司会开始成批购买这些设备,显著降低运行AI模型的成本,尤其是像Llama这样的开源模型,因为任何人都可以下载并运行它。目前很多公司已经在使用它。

最初我对Llama的定价相当失望,因为它的价格并不比Anthropic、OpenAI和Google的模型更具竞争力。但这一情况可能会改变。

当Llama的价格下降时,我能看到整个行业跟随降价的可能性。一些模型的规模尚不明确,除了Gemini Flash 8B。我几乎可以肯定它只有80亿参数,意味着它可以在消费级GPU上运行。老实说,我有点失望Flash 8B的价格只是完整版Gemini Flash的一半。如果他们愿意,我相信价格还可以更低。没必要,因为Gemini Flash已经是最便宜的了。当然,我觉得AWS可能有个模型技术上更便宜,但那是AWS,它烂得像其他AWS垃圾一样。

我正在开发一个电子邮件应用,叫Project Tejido,它会用LLM扫描每封电子邮件。我做了一些粗略计算,觉得这会是个非常好的主意,因为运行成本非常低。然而,现在实际开发过程中,我发现自己对每封邮件所需的tokens估计错了……错了两个数量级。所以成本比预期高了许多。虽然这个项目仍然可行,但远没有我最初估计的那么划算。我期待LLM的价格能再降一点,希望能降低两个数量级。

不过,我不确定LLM的成本是否会再降两个数量级,因为这已经接近电力成本了。但降一个数量级?有可能。要大幅降低LLM的成本需要什么?竞争。最近我们还没有看到太多竞争。当然,有GPT-4o Mini和Claude 3.5 Haiku,但GPT-4o Mini已经很老了,Claude 3.5 Haiku实际上比Claude 3.0 Haiku更贵。他们声称这是因为性能更好。

问题就在这:低端模型竞争激烈,但高端‘前沿’模型却没有。我们需要前沿模型降价。而唯一的办法就是让算力变得极其便宜。英伟达的Project Digits正是这样做的,所以它将大幅压缩AI模型的价格。

更新:许多人提到内存速度问题。英伟达没有公布设备的内存带宽,但估算值在273GB/s到1TB/s之间。我不认为它能超过那些价格是它5倍的显卡,但我猜测它仍然足够快,可以运行像Llama 405b这样的LLM,而这正是黄仁勋提到的。因此,与目前类似规格的硬件相比,它仍将显著更便宜。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/868967.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

傅里叶级数

傅里叶级数 转自 https://zhuanlan.zhihu.com/p/609597010傅里叶级数的公式: 其中: 为了积分方便,积分区间一般设为[-π, π],也相当一个周期T的宽度。 1、把一个周期函数表示成三角级数:首先,周期函数是客观世界中周期运动的数学表述,如物体挂在弹簧上作简谐振动、单…

旅游巴士

旅游巴士一看题啥也不会 注意到数据点范围,发现有特殊性质 ai=0 ,也就是说,每个景点没有时间限制,所以在分层图上跑BFS最短路就行了。设 dis[i][j] 为到第 i 个点时,在时刻 t 时刻到达,记录为 t mod k=j,分为 j 层。 考虑正解,假设现在到达了 u 号点,在 t 时刻,要去往…

VS2022 安装 .NET Framework 4.0 和 .NET Framework 4.5 的方法

前言2022年5月27日,刚刚把VS2019升级到了VS2022,安装时已经不提供.NET Framework 4.0和.NET Framework 4.5的目标框架了,打开VS也提示不支持目标框架。 解决方法1、下载.NET Framework框架.NET Framework 4.5.2.NET Framework 4.5.1.NET Framework 4.5.NET Framework 4.0备…

《ESP32-S3使用指南—IDF版 V1.6》第二章 常用的C语言知识点

第二章 常用的C语言知识点 1)实验平台:正点原子DNESP32S3开发板 2)章节摘自【正点原子】ESP32-S3使用指南—IDF版 V1.6 3)购买链接:https://detail.tmall.com/item.htm?&id=768499342659 4)全套实验源码+手册+视频下载地址:http://www.openedv.com/docs/boards/esp…

Avalonia 简单实现输入法光标跟随效果

本文将告诉大家如何在 Avalonia 里面实现输入法光标跟随效果本文是在 11.1.0 的 Avalonia 版本里面实现效果 本文内容里面只给出关键代码片段,如需要全部的项目文件,可到本文末尾找到本文所有代码的下载方法 核心是编写一个类型,让这个类型继承 TextInputMethodClient 类。然…

【一文详解】解决跨网文件传输三大瓶颈 选择专业文件摆渡系统

在数字化办公日益普及的今天,跨网文件传输成为许多企业面临的技术瓶颈。传统的文件传输方式往往无法满足跨地域、跨网络环境中的需求,尤其是随着数据量的增大和传输频率的提高,企业在进行文件交换时频繁遇到速度慢、安全性差、稳定性差等问题。因此,选择一款专业的文件摆渡…

SecureCRT v9.5.2 for Mac SSH终端操作工具

SecureCRT v9.5.2 for Mac SSH终端操作工具 安装 介绍 SecureCRT Mac是一款SSH终端工具,为计算专业人士提供高级会话管理工具。也是一个功能强大且值得信赖的基于GUI的SHH和Telnet客户端,以及旨在提高工作效率并简化重复任务的终端仿真器。借助SecureCRT mac版的帮助,您可以…

Gitlab流水线配置

由于格式和图片解析问题,为了更好阅读体验可前往 阅读原文流水线的流程是,提交代码后,gitlab会检测项目根目录里的.github-ci.yml文件,根据文件中的流水线自动构建,配置文件格式正确性可以在gitlab进行文件校验,格式使用yaml文件格式,一个yaml文件就是一个流水线,里面会…

验证表单输入:必填域

问题 希望确保必须为一个表单元素提供一个值。例如,希望保证一个文本框不为空。 解决方案 使用filter_has_var()查看这个元素在相应的输入数组中是否存在。 严格表单验证 // 检查POST请求中是否存在first_name字段,并且这个字段的长度大于0 if(!(filter_has_var(INPUT_POST, …

[2025.1.13 JavaSE学习]集合-7(Hashtable Properties)

Hashtable 特点和HashMap处于同一级,实现了Map接口,继承了Dictionary类 Hashtable的key和value都不能为null,否则会抛出NullPointException 是线程安全的,带有synchronized修饰扩容机制底层有数组Hashtable$Entry[ ],初始化大小为11 临界值threshold为8 = 11/* 0.75 而后按…

Ansible工具集使用指南

作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 目录一.ansible相关的工具概述1.查看ansible相关的工具2.本质上是一个Python脚本文件二.ansible-doc工具使用指南1 ansible-doc查看ansible文档2.列出支持的模块列表3.过滤出指定模块4.列出指定类型模块5.显示…

网络云服务

一、网络服务介绍 网络是指多个计算机或其他设备连接在一起,以便它们可以互相通信和共享资源的系统。 网络可以是局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)或互联网(Internet)等不同类型。 华为云拥有丰富的网络服务,提供安全、可扩展的云上网…