谷歌Gemini造假始末-编程知识

谷歌Gemini造假始末

💡大家好，我是可夫小子，《小白玩转ChatGPT》专栏作者，关注AIGC、读书和自媒体。

在过去一年中，OpenAI ChatGPT引发了一股AI新浪潮，而谷歌则一直处于被压制的状态，迫切需要一款现象级的AI产品来证明自己的实力。

自ChatGPT发布以来，人们一直对谷歌声称的竞品Gemini模型的能力非常好奇。这款大型模型早在今年3月就传出了风声，在5月的I/O大会上进入了“即将推出”的状态。

发布

12月7日凌晨，谷歌终于发布了自家“原生多模态”(natively multimodal)大模型Gemini。谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上线，并表示这是“谷歌迄今为止最大、能力最强的AI模型”。

与此同时，一段大约6分钟的Gemini演示视频[1]，也在各个自媒体平台疯传。最个视频展示在在视频下的人工智能，不仅能听会说，还是能看得清、看得懂，丝滑的交互，让我们感觉离AGI又进了一步。

质疑

收获了各方赞誉之后，然后过了一个晚上，演示视频造假的消息也成这个模型新的热度，后来谷歌也发推承认，只是在「剪辑」上，加快的反应速度。“出于本演示的目的，为了简洁起见，延迟已减少，Gemini输出也已缩短。”

混淆跑分，GPT4测试标准不一致

仅仅是视频作假吗？后来有人发现，在与GPT4的对比数据中也存在玄机。

从谷歌对Gemini的宣传信息来看，他们声称Gemini在32项标准性能指标中有30项比GPT-4更优秀，取得了90%以上的高分。但实际上，差距微乎其微，而且这种比较并不公平。

Gemini Ultra的90%得分是基于谷歌研究人员开发的一种基于32个样本思维链的方法。对于同一个问题，Gemini Ultra会生成32个答案以及这些答案的推理。然后，模型会选择最常见的答案作为最终答案。

但GPT-4的86.4%分数是基于行业评估标准5-shot。HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中提取数据重做计算，在5-shot的标准下，Gemini的得分实为83.7%，比GPT-4更低。

也就是说，只有当CoT（思维链）达到32个例子时，Gemini Ultra才能达到90分以上，超过GPT-4；当例子数量减少到5个时，Gemini Ultra的得分就不如GPT-4。难怪连谷歌公司高管在之前都回避了关于该模型比GPT-4强多少的问题，因为它们只是在不同的标准上“强”。

就像谷歌在5月份发布Palm-2的时候，也挑出了两个优于GPT-4的指标，但是后来这个大模型怎么样，大家都清楚。

斯坦福大学基础模型研究中心主任Percy Liang也谈到，虽然Gemini有很好的基准分数，但由于不知道训练数据的内容，因此很难解释这些数据。华盛顿大学计算语言学教授Emily Bender也指出，谷歌宣传Gemini是一台万能机器，是一个可用于多种不同用途的通用模型。但是谷歌却使用狭隘的基准来评估它期望用于这些不同用途的模型，这意味着它无法得到彻底的评估。