谷歌发布Gemini以5倍速击败GPT-4

8a084fe88e53af5f6d5e02c2d0884a5b.jpeg

在Covid疫情爆发之前,谷歌发布了MEENA模型,短时间内成为世界上最好的大型语言模型。谷歌发布的博客和论文非常可爱,因为它特别与OpenAI进行了比较。

相比于现有的最先进生成模型OpenAI GPT-2,MEENA的模型容量增加了1.7倍,并且训练数据增加了8.5倍。

这个模型的训练所需的浮点运算量(FLOPS)超过了GPT-2的14倍,但这在很大程度上是无关紧要的,因为仅仅几个月后,OpenAI推出了GPT-3,它的参数是GPT-2的65倍多,令牌数量是GPT-2的60倍多,FLOPS更是增加了超过4,000倍。这两个模型之间的性能差异巨大。

MEENA模型引发了Noam Shazeer撰写的名为“MEENA吞噬世界”的内部备忘录。在这个备忘录中,他预测了在ChatGPT发布之后世界上其他人在意识到的事情。主要观点是语言模型会在各种方式下越来越多地融入我们的生活,并且它们会主导全球部署的FLOPS。当他写这篇备忘录时,他的观点超前于时代,但大多数关键决策者当时都忽视了或甚至嘲笑了这些观点。

让我们稍微偏离一下,看看Noam真的有多先见之明。他曾是撰写原始的Transformer论文“Attention is All You Need”的团队成员。他还参与了第一篇现代Mixture of Experts论文、Switch Transformer、Image Transformer,以及LaMDA和PaLM的各个方面。他尚未在更广泛的范围内获得广泛认可的一个想法是2018年的,即我们在关于GPT-4的独家披露中详细介绍的“推测解码”。推测解码可以将推理成本降低多倍。

这里的重点是,谷歌拥有所有成功的因素,但他们却错误地处理了。这是大家都明显看到的情况。

可能不太明显的是,沉睡的巨人谷歌已经醒来,他们正在以超越GPT-4的总预训练FLOPS速度5倍的步伐迭代,预计在年底之前。根据他们目前的基础设施建设,到明年年底他们的路径清晰可见,可能达到100倍。至于谷歌是否有胆量在不削弱其创造力或现有商业模式的情况下公开发布这些模型,这是一个不同的讨论。

今天,我们想要讨论谷歌的双子座训练系统,双子座模型的迭代速度,谷歌的Viperfish(TPUv5)推出,谷歌与其他前沿实验室在未来的竞争力,以及一个我们称之为“显卡穷人”的群体。


GPU-Rich显卡富人

计算资源的获取是一个双峰分布。只有少数几家公司拥有20,000个以上的A/H100显卡,个人研究人员可以为小项目获得数百或数千个显卡。其中主要的公司包括OpenAI、谷歌、Anthropic、Inflection、X和Meta,它们的计算资源与研究人员的比例最高。上述一些公司以及多家中国公司,到明年底将拥有10万个以上的显卡,尽管我们不确定中国的研究人员比例,只知道显卡数量。

在湾区,我们看到的最有趣的趋势之一是顶尖机器学习研究人员吹嘘他们有多少显卡,或者即将拥有多少显卡的机会。事实上,在过去的大约4个月里,这种现象变得如此普遍,以至于它已经成为一个直接影响顶尖研究人员决定去哪里的竞争。Meta,将拥有世界上第二多的H100显卡的公司,正在将这一点作为一种招聘策略。


GPU-Poor显卡穷人

然后,还有许多初创公司和开源研究人员,他们面临着更少显卡的困境。他们在试图做一些根本没有帮助或实际上无关紧要的事情上花费了大量的时间和精力。例如,许多研究人员花费了无数个小时在使用没有足够VRAM的显卡上对模型进行微调,这是对他们的技能和时间的极其低效的利用。

这些初创公司和开源研究人员正在使用更大的语言模型对较小的模型进行微调,用于排行榜样式的基准测试,而这些基准测试使用了有缺陷的评估方法,更强调样式而不是准确性或有用性。他们通常并不知道,为了使较小的开放模型在实际工作负载中改进,预训练数据集和IFT数据需要更大/更高质量。

是的,高效使用显卡是非常重要的,但在很多方面,显卡穷人们却忽略了这一点。他们不关心规模效率,他们的时间没有得到有效利用。对于即将在明年底之前拥有超过350万个H100显卡的世界来说,在他们的显卡穷人环境中商业上可以做的事情在很大程度上是无关紧要的。对于学习、尝试,更小、更弱的游戏显卡完全足够。

显卡穷人们仍然主要使用稠密模型,因为这就是Meta优雅地放在他们手上的LLAMA系列模型。如果没有上帝扎克的恩惠,大多数开源项目可能会更糟。如果他们真的关心效率,特别是在客户端方面,他们会运行像MoE这样的稀疏模型架构,在这些更大的数据集上进行训练,并像前沿的LLM实验室(OpenAI、Anthropic、Google Deepmind)那样实现推测解码。

这些处于劣势地位的人应该关注通过提高计算和内存容量要求以改善模型性能或令牌到令牌的延迟来平衡,以换取较低的内存带宽,因为这是边缘需要的。他们应该专注于在共享基础设施上高效地提供多个微调模型,而不用支付小批量大小的可怕成本。然而,他们一直关注内存容量限制或过度量化,而对真实质量下降视而不见。

稍微偏离一下,总体上,模型评估是有问题的。尽管在封闭的世界中有很多努力来改进这一点,但开放基准测试领域几乎没有意义,几乎没有衡量任何有用的东西。由于某种原因,对于LLM的排行榜化存在一种不健康的痴迷,以及对于无用模型的愚蠢名称的模因化。希望开源努力能够重新引导到评估、推测解码、MoE、开放的IFT数据和具有超过1万亿标记的干净预训练数据集,否则,开源将无法与商业巨头竞争。

虽然美国和中国将能够继续领先,但欧洲的初创公司和政府支持的超级计算机(如朱尔斯·凡尔纳)也完全无法竞争。由于缺乏进行大规模投资的能力,并选择保持显卡穷人的状态,欧洲在这场比赛中将落后。甚至多个中东国家也在为推动AI的大规模基础设施投资更多资金。

然而,显卡穷人并不仅限于初创公司。一些最知名的人工智能公司,如HuggingFace、Databricks(MosaicML)和Together,也是显卡穷人的一部分。实际上,从每个GPU的世界级研究人员数量,到GPU数量与雄心/潜在客户需求之间的关系,他们可能是最穷的一群。这些公司拥有世界级的研究人员,但由于他们使用的系统的能力相对较低,他们的发展受到了限制。这些公司在培训实际模型方面受到了企业的巨大需求,成千上万个H100显卡已经陆续到来,但这并不足以占据大部分市场份额。

Nvidia凭借其在DGX Cloud服务和各种内部超级计算机中拥有的多倍显卡数量正在蚕食它们的市场份额。Nvidia的DGX Cloud提供了预训练模型、数据处理框架、矢量数据库和个性化、优化的推理引擎、API以及来自NVIDIA专家的支持,以帮助企业调整模型以适应其自定义用途。该服务还已经为来自SaaS、保险、制造业、制药、生产软件和汽车等行业的多个大型企业提供了支持。虽然并非所有客户都已宣布,但即使是Amgen、Adobe、CCC、ServiceNow、Accenture、AstraZeneca、Getty Images、Shutterstock、Morningstar、Evozyne、Insilico Medicine、Quantiphi、InstaDeep、Oxford Nanopore、Peptone、Relation Therapeutics、ALCHEMAB Therapeutics和Runway这样的公开客户列表也相当令人印象深刻。

这是一个比其他玩家更长的列表,Nvidia还有许多其他未公开的合作伙伴关系。需要明确的是,来自Nvidia的DGX云服务这些宣布客户的收入是未知的,但考虑到Nvidia的云计算支出和内部超级计算机建设的规模,似乎更多的服务可以/将从Nvidia的云中购买,而不仅仅是HuggingFace、Together和Databricks所能提供的。

HuggingFace和Together共筹集的几亿资金意味着他们将保持显卡穷人的状态,他们将无法培训N-1个LLM,这些LLM可以作为基础模型供客户微调。这意味着他们最终将无法在今天就可以访问Nvidia的服务的企业中占据很高的份额。

特别是HuggingFace在行业中有着最大的声誉,他们需要利用这一点来投资大量资金,并构建更多的模型、定制和推理能力。他们最近的融资轮次在估值过高,无法获得他们需要的投资来竞争。HuggingFace的排行榜表明他们有多么盲目,因为他们正在误导开源运动,让其创造出一堆在实际使用中毫无用处的模型。

Databricks(MosaicML)可能至少可以通过其数据和企业连接赶上,问题是如果他们想有希望为超过7,000名客户提供服务,他们需要加快支出的速度。对MosaicML的13亿美元收购是对这一垂直领域的重大赌注,但他们还需要在基础设施上投入类似的资金。不幸的是,对于Databricks来说,他们不能用股票支付显卡的费用。他们需要通过即将进行的私募轮/首次公开募股来进行大规模的发行,并使用那些冷硬现金来大幅度增加硬件投入。

经济论点在这里不成立,因为他们必须在客户到来之前建设,因为Nvidia正在向他们的服务投入资金。需要明确的是,许多人购买了大量计算资源,但并没有赚回他们的钱(Cohere、沙特阿拉伯、阿联酋),但这是竞争的先决条件。

训练和推理运营公司(Databricks、HuggingFace和Together)在其主要竞争对手之后,而这些竞争对手同时也是他们的计算资源的主要来源。下一个最大的定制模型运营商只是来自OpenAI的微调API。

关键在于,从Meta到Microsoft再到初创公司,他们只是作为向Nvidia的银行账户输送资金的通道。

有没有人能够拯救我们免于Nvidia的奴役?

是的,有一个潜在的救星。


谷歌 - 全球最富有计算资源的公司


虽然谷歌在内部使用显卡,同时也通过GCP销售了大量显卡,但他们还有一些王牌。其中包括Gemini和已经开始训练的下一代模型。他们最重要的优势是无与伦比的高效基础设施。谷歌将会拥有比OpenAI、Meta、CoreWeave、Oracle和亚马逊的显卡总数加起来还要多的TPUv5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/91454.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Chrome小恐龙快跑小游戏——Python实现

目录 视频演示 代码实现 视频演示 Chrome小恐龙快跑小游戏——Python实现 代码实现 import pygame import os import random pygame.init()# Global Constants SCREEN_HEIGHT 600 SCREEN_WIDTH 1100 game_over False SCREEN pygame.display.set_mode((SCREEN_WIDTH, SCR…

【QT】信号和槽(15)

前面的内容说了很多不同的控件如何使用,今天来看下QT的核心,信号与槽(Signals and slots)! 简单理解一下,就是我们的信号与槽连接上了之后,发射一个信号给到槽,槽函数接收到了这个信…

每日一题:leetcode 1267 统计参与通信的服务器

这里有一幅服务器分布图,服务器的位置标识在 m * n 的整数矩阵网格 grid 中,1 表示单元格上有服务器,0 表示没有。 如果两台服务器位于同一行或者同一列,我们就认为它们之间可以进行通信。 请你统计并返回能够与至少一台其他服务…

由于启动计算机时出现了页面文件配置问题,Windows在您的计算机创建了一个临时页面文件...

问题来源:D盘存储空间爆满以后,每次开机电脑开始自动弹窗。 提示信息: 可以点击确定,win10直接跳出虚拟内存设置窗口,如下 选择勾选“自动管理所有驱动器的分页文件大小”,点击确定,没有再弹窗。…

lnmp架构-PHP

08 PHP源码编译 09 php初始化配置 nginx 的并发能力强 phpinfo函数 就是 显示php信息 10 php的功能模块 编译memcache模块 php的动态模块方式 mamcache 就是内存 直接从内存中命中 所以性能非常好 但是 这还不是最好的方式 工作流程 关键看后端的 php 什么时候处理完 mamcac…

博客系统后端(项目系列2)

目录 前言 : 1.准备工作 1.1创建项目 1.2引入依赖 1.3创建必要的目录 2.数据库设计 2.1博客数据 2.2用户数据 3.封装数据库 3.1封装数据库的连接操作 3.2创建两个表对应的实体类 3.3封装一些必要的增删改查操作 4.前后端交互逻辑的实现 4.1博客列表页 …

在Visual Studio 2017上配置并使用OpenGL

1 在Visual Studio 2017上配置并使用OpenGL 在GLUT - The OpenGL Utility Toolkit:GLUT - The OpenGL Utility Toolkit中点击“GLUT for Microsoft Windows 95 & NT users”,选择“If you want just the GLUT header file, the .LIB, and .DLL file…

AcWing 794. 高精度除法

AcWing 794. 高精度除法 题目描述代码展示 题目描述 代码展示 #include <iostream> #include <vector> #include <algorithm>using namespace std;vector<int> div(vector<int> &A, int b, int &r) {vector<int> C;r 0;for (int…

【C语言】探讨蕴藏在表达式求解中的因素

&#x1f6a9;纸上得来终觉浅&#xff0c; 绝知此事要躬行。 &#x1f31f;主页&#xff1a;June-Frost &#x1f680;专栏&#xff1a;C语言 &#x1f525;该篇将探讨 操作符 和 类型转换 对表达式求解的影响。 目录&#xff1a; 隐式类型转换算术转换操作符的属性❤️ 结语 隐…

Leetcode 易错题整理(一)5. 7. 11. 15. 33. 34

5. 最长回文子串 给你一个字符串 s&#xff0c;找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同&#xff0c;则该字符串称为回文字符串。 示例 1&#xff1a; 输入&#xff1a;s "babad" 输出&#xff1a;"bab" 解释&#xff1a;"aba&q…

jvm的内存划分区域

jvm划分5个区域&#xff1a; java虚拟机栈、本地方法栈、堆、程序计数器、方法区。 各个区各自的作用&#xff1a; 1.本地方法栈&#xff1a;用于管理本地方法的调用&#xff0c;里面并没有我们写的代码逻辑&#xff0c;其由native修饰&#xff0c;由 C 语言实现。 2.程序计数…

Cypress web自动化windows环境npm安装Cypress

前言 web技术已经进化了&#xff0c;web的测试技术最终还是跟上了脚步&#xff0c;新一代的web自动化技术出现了&#xff1f; Cypress可以对在浏览器中运行的任何东西进行快速、简单和可靠的测试。 官方地址https://www.cypress.io/,详细的文档介绍https://docs.cypress.io/g…