谷歌通往AI霸主地位的路径
图片由谷歌Imagen 3生成
2023年2月6日,谷歌首席执行官桑达尔·皮查伊在巴黎登台,展示了谷歌的首款AI驱动聊天机器人Bard。
Bard出现了“幻觉”。
演示失败了,谷歌母公司Alphabet市值蒸发了1000亿美元。
在2023年的大部分时间里,谷歌似乎在人工智能创新方面落后了。一个在“Transformer”技术和AI研究领域领先的公司,怎么会如此缺乏准备呢?
同年4月,谷歌决定将其研究部门(DeepMind)和产品部门(Google Brain)合并为一个AI部门。
合并后的团队合作发布了一款全新的大型语言模型(LLM)“Gemini”(寓意“二合一”),该模型于2023年12月推出,这似乎标志着谷歌统治地位的开始。
然而,在展示Gemini时,谷歌的一段六分钟宣传视频却因剪辑加工过度而遭到批评,显得AI比实际更快、更智能。
到2024年2月,Gemini的图像生成工具Imagen卷入争议,导致该模型被撤下。
Imagen生成了不符合历史事实的多样化历史人物图像。例如,当被要求描绘美国开国元勋时,它生成了不同种族的男女形象。
来源:2024年2月—在社交平台X上引发热议
但问题还不止这些。2024年5月,谷歌推出的实验性“AI综述”搜索功能的结果也不理想。
其中一个结果建议用户在让奶酪更好地粘在披萨上时使用“无毒胶水”。AI生成的回复还声称地质学家建议每天吃一块岩石。
在生成式AI领域,谷歌的表现似乎确实不太顺利……至少表面上是这样。
谷歌的成功之处
当谷歌因产品失误而在媒体上遭到批评时,幕后的研发工作却在悄然推进。所有零碎的部分迟早会拼接完整。
2024年初,谷歌实验室开始展示在图像、音乐、艺术和文本方面的创新进展,表现出更具趣味性和非传统企业化的开发方式。
他们的FX系列尤其引人注目,极具创意和吸引力。
逐渐地,Imagen成为一款重要的图像模型。在我的公司,我通过盲测实验,用市场上10款顶级图像生成器生成相同提示的输出。结果显示,Imagen的图像得票最高。
谷歌开始将其生成工具整合到其Workspace产品中,嵌入到谷歌搜索和Android手机,包括其Pixel手机。他们是第一个在手机上推出原生模型体验的公司。
2024年,沉睡的巨人被唤醒了。
到2024年底,谷歌的创新风暴对生成式AI的竞争者造成了巨大的冲击:
• Gemini模型登上聊天机器人排行榜榜首,在数学、创意写作和视觉任务中排名第一。
• 谷歌发布了Gemini 2,一款具有多模态推理、长文本上下文理解和原生工具使用的新顶级模型。
• 谷歌的NotebookLM成为2024年最受欢迎的AI产品,其“音频综述”播客功能引发病毒式传播。
• 谷歌的视频模型Veo 2获得广泛好评,被认为是最好的视频生成器,仿佛从天而降。
• 谷歌最新发布的Imagen 3在制作逼真的人像、微距摄影和专业插图方面表现出色,在基准测试中超越了顶级图像模型。
• 谷歌展示并即将发布Project Astra,这是一项多模态AI计划,可以通过多种感官理解和与世界互动,提供更自然和有用的帮助。
• 谷歌展示并即将发布Project Mariner,一种AI代理工具,可以浏览网络并在电脑上执行任务。
• 谷歌推出了Jules,这是一款AI驱动的编码助手,可以编写代码、分解复杂任务、理解代码库、运行测试,并根据反馈进行调整。
• 谷歌发布了Deep Research,这是一款AI代理,旨在通过创建多步骤研究计划帮助用户探索复杂主题。
• 谷歌推出了Android XR,这是一款专为扩展现实(XR)设备设计的新操作系统,包括虚拟现实(VR)头戴设备和智能眼镜。
此外,谷歌的Demis Hassabis和John Jumper凭借AI研究,与另一位研究员共同获得了诺贝尔化学奖。
当然,还有Willow,这是谷歌开发的新型量子芯片。这是量子计算领域的重要进展,因为它可以在扩展规模的同时减少错误,这一直是构建大规模量子计算机的主要挑战。
谷歌为什么将在2025年占据主导地位
这些年终突破性进展犹如重锤,冲击了生成式AI的竞争格局。而这不仅仅是暂时的创新,而是一场划时代的变革。
谷歌正在确立自己作为生成式AI领导者的地位,并且已经具备了胜出的条件。谷歌主导地位的关键在于它掌握了完整的AI技术栈,不依赖任何合作伙伴的成功。
与其他依赖NVIDIA的公司不同,谷歌使用自己的芯片(TPU,Tensor Processing Units)来训练模型,并广泛应用于谷歌的基础设施中。
谷歌拥有自己的云托管、AI模型、研究实验室、应用程序和消费者设备(Pixel智能手机和Android生态系统)。谷歌的软件运行在企业和消费者应用程序上。
此外,谷歌还拥有庞大的数据资源——例如,YouTube视频的数据存储量达到数十亿GB,每天上传720,000小时的视频内容。
因此,当我们考虑生成式AI主导的三大支柱——数据、模型和计算基础设施时,谷歌都拥有绝对优势。
完整的技术栈,从开发到部署。
AI运行成本问题
关于运行生成式AI的高昂成本,谷歌并没有这个问题。他们的市值达2.3万亿美元,年收入超过3000亿美元。
关于Perplexity对谷歌搜索的挑战
如果你是生成式AI的早期用户,你的社交平台X动态可能充满了用户对Perplexity网络引擎的喜爱。我也是如此,但实际上,Perplexity的每月访问量为5300万,而谷歌为846亿次。Perplexity甚至没有进入搜索引擎统计数据排名。
来源:Gs StatCounter
随着Gemini搜索的改进,谷歌可以轻松从传统搜索过渡到生成式AI搜索。事实上,这已经开始发生,只是还未大规模应用。
唯一可能影响谷歌收入的因素是政府可能要求拆分谷歌,但这种可能性很低。
更有可能发生的是,美国司法部可能会规定谷歌不能支付设备分销商以使谷歌搜索成为默认引擎。
不过,这对谷歌的AI主导地位不会产生重大影响。他们拥有多元化的收入来源。
关于竞争者
让我们看看目前竞争对手的情况:
- OpenAI
OpenAI仍被认为拥有最好的LLM,但未来面临一些挑战。他们仍未盈利,感觉所有前沿模型正在趋于同质化。OpenAI依赖微软的处理和训练资源,但微软可能会转而优先发展自己的模型。
展望未来,重点可能会从创造更强大的模型转向推动产品创新。OpenAI能否在不断演变的格局中保持增长,仍然是未知数。
- 微软
虽然微软在AI创新方面是一股强大力量,但他们仍依赖OpenAI进行模型创新。他们的Copilot企业解决方案表现不佳,尽管他们在推动AI代理,但其他公司也在做类似的事情。
他们肯定会继续是顶级玩家,但难以达到谷歌的水平,2025年这一点将更加明显。
- Anthropic
2025年可能是Anthropic最具挑战性的一年。尽管他们拥有顶级LLM“Claude”以及诸如Artifacts和Projects等出色功能,但他们依赖AWS进行企业部署。Anthropic的唯一出路是继续推动LLM创新,但这可能还不足够。
- Meta
在AI战略方面,Meta有些难以预测。他们通过开源模型取得了巨大成功,但在如何成功部署这些模型到自身平台上仍在探索。
他们广泛涉足消费者和社交领域,但依赖设备分销商。这也是扎克伯格执着于开发智能眼镜和可穿戴设备的原因,他想建立一个分销渠道。
不过,谷歌最近宣布推出智能眼镜,这给Meta带来了额外压力。我认为Meta有长期竞争的潜力,但在明年难以取得大胜。
- 亚马逊
亚马逊可能是2025年最接近挑战谷歌的竞争对手。他们拥有服务器和托管基础设施、企业解决方案、自主芯片,并且刚刚发布了一系列新的多模态模型“Nova”。
如果这些模型能兑现承诺,并成功扩展到企业领域之外——类似他们在AWS上的成功,同时在其购物和消费者平台(包括Alexa)上也表现出色,那么他们可能是最全面的AI战略制定者,仅次于谷歌。
- 苹果
在生成式AI领域,苹果的表现令人尴尬。他们的Siri(通过ChatGPT驱动)的用户体验非常差。尽管苹果在设备市场占据主导地位,但他们在有效整合AI方面表现挣扎——或者至少说,他们的进展比其他公司慢得多。
这是我自iPhone推出以来,第一次几乎想换到Pixel手机的原因。
谷歌的下一步
凭借最新的创新,谷歌已经具备超越所有竞争对手的条件。
AI竞赛是他们的胜利之地。
除了他们笨拙的产品营销之外,我看不到任何可能阻碍谷歌发展的弱点。唯一可能的障碍是针对他们搜索战略的监管措施,但这仍有待观察。
2025年看起来很可能是谷歌登上生成式AI创新领导者宝座的一年。