谷歌Gemini造假始末

💡大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AIGC、读书和自媒体。

在过去一年中,OpenAI ChatGPT引发了一股AI新浪潮,而谷歌则一直处于被压制的状态,迫切需要一款现象级的AI产品来证明自己的实力。

自ChatGPT发布以来,人们一直对谷歌声称的竞品Gemini模型的能力非常好奇。这款大型模型早在今年3月就传出了风声,在5月的I/O大会上进入了“即将推出”的状态。

发布

12月7日凌晨,谷歌终于发布了自家“原生多模态”(natively multimodal)大模型Gemini。谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上线,并表示这是“谷歌迄今为止最大、能力最强的AI模型”。

与此同时,一段大约6分钟的Gemini演示视频[1],也在各个自媒体平台疯传。最个视频展示在在视频下的人工智能,不仅能听会说,还是能看得清、看得懂,丝滑的交互,让我们感觉离AGI又进了一步。

loading

质疑

收获了各方赞誉之后,然后过了一个晚上,演示视频造假的消息也成这个模型新的热度,后来谷歌也发推承认,只是在「剪辑」上,加快的反应速度。“出于本演示的目的,为了简洁起见,延迟已减少,Gemini输出也已缩短。”

loading

混淆跑分,GPT4测试标准不一致

仅仅是视频作假吗?后来有人发现,在与GPT4的对比数据中也存在玄机。

从谷歌对Gemini的宣传信息来看,他们声称Gemini在32项标准性能指标中有30项比GPT-4更优秀,取得了90%以上的高分。但实际上,差距微乎其微,而且这种比较并不公平。

Gemini Ultra的90%得分是基于谷歌研究人员开发的一种基于32个样本思维链的方法。对于同一个问题,Gemini Ultra会生成32个答案以及这些答案的推理。然后,模型会选择最常见的答案作为最终答案。

loading

但GPT-4的86.4%分数是基于行业评估标准5-shot。HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中提取数据重做计算,在5-shot的标准下,Gemini的得分实为83.7%,比GPT-4更低。

loading

也就是说,只有当CoT(思维链)达到32个例子时,Gemini Ultra才能达到90分以上,超过GPT-4;当例子数量减少到5个时,Gemini Ultra的得分就不如GPT-4。难怪连谷歌公司高管在之前都回避了关于该模型比GPT-4强多少的问题,因为它们只是在不同的标准上“强”。

就像谷歌在5月份发布Palm-2的时候,也挑出了两个优于GPT-4的指标,但是后来这个大模型怎么样,大家都清楚。

斯坦福大学基础模型研究中心主任Percy Liang也谈到,虽然Gemini有很好的基准分数,但由于不知道训练数据的内容,因此很难解释这些数据。华盛顿大学计算语言学教授Emily Bender也指出,谷歌宣传Gemini是一台万能机器,是一个可用于多种不同用途的通用模型。但是谷歌却使用狭隘的基准来评估它期望用于这些不同用途的模型,这意味着它无法得到彻底的评估。

实力or造假

前两天,又有网友爆料:在谷歌 Vertex AI 平台使用该模型进行中文对话时,Gemini-Pro 直接表示自己是百度语言大模型。

loading

也就是说Google的这个年度最优的作品的中文训练语料,就直接调用百度的文心一言。之前文心一言推出来的时候,当时也被怀疑是翻译外网的文本,进行模型训练。对于美帝来说,也上演了一把出口转内销的闹剧。

但对于押宝人工智能最早,投入最高的互联网老大哥谷歌,在新的AI时代的竞争,确实有些乏力了。我们期待Gemini的更新版本,期待谷歌更多的作品。

📎

解锁更多ChatGPT、AI绘画玩法。备注:chatgpt

参考资料

[1]

演示视频: https://www.bilibili.com/video/BV12M411d7He/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/298705.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LSTM(长短期记忆网络)的设计灵感和数学表达式

1、设计灵感 LSTM(长短期记忆网络)的设计灵感来源于传统的人工神经网络在处理序列数据时存在的问题,特别是梯度消失和梯度爆炸的问题。 在传统的RNN(循环神经网络)中,信息在网络中的传递是通过隐状态向量进…

Linux6.2、IO基础(文件系统接口)

个人主页:Lei宝啊 愿所有美好如期而遇 直接使用系统接口 fopen底层封装的系统接口为open pathname也就是文件路径,flags我们通过一个demo来理解。 首先我们应该了解的是位图,int有32个比特位,我们根据他的比特位是否为1来决定这…

使用 fixture 机制重构 appium_helloworld

一、前置说明 在 pytest 基础讲解 章节,介绍了 pytest 的特性和基本用法,现在我们可以使用 pytest 的一些机制,来重构 appium_helloworld 。 appium_helloworld 链接: 编写第一个APP自动化脚本 appium_helloworld ,将脚本跑起来 代码目录结构: pytest.ini 设置: [pyt…

图像质量评估方法——结构相似性指数(SSIM)

结构相似性指数(SSIM)是一种全参考图像质量评估方法,用于比较两幅图像的相似性。 SSIM的计算涉及到亮度(Luminance)、对比度(Contrast)和结构(Structure)三个方面的相似性…

Docker 安装 MySQL5.7 和 MySQL8

文章目录 安装 MySQL5.7拉取镜像前期准备:启动容器 安装MySQL8.0拉取镜像查看镜像前期准备启动容器 安装 MySQL5.7 拉取镜像 docker pull mysql:5.7拉下来镜像后 执行 docker images 此时我们已经有这个镜像了。 前期准备: 在根目录下创建 app &…

PTA 最小生成树-kruskal

7-92 最小生成树-kruskal 分数 10 全屏浏览题目 作者 任唯 单位 河北农业大学 题目给出一个无向连通图,要求求出其最小生成树的权值。 温馨提示:本题请使用kruskal最小生成树算法。 输入格式: 输出格式: 输出一个整数表示最小生成树的各边的长度之和。…

Redis缓存常见问题之预热、雪崩、击穿、穿透

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring源码、JUC源码、Kafka原理、分布式技术原理、数据库技术🔥如果感觉博主的文章还不错的…

Ubuntu 22.04.3 Server 设置静态IP 通过修改yaml配置文件方法

目录 1.查看网卡信息 2.修改yaml配置文件 3.应用新的网络配置 4.重新启动网络服务 文章内容 本文介绍Ubuntu 22.04.3 Server系统通过修改yaml配置文件配置静态 ip 的方法。 1.查看网卡信息 使用ifconfig命令查看网卡信息获取网卡名称​ 如果出现Command ifconfig not fo…

单聊和群聊

TCP协议单聊服务端: import java.awt.BorderLayout; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.net.ServerSocket; import java.net.Socket; import java.util.Vec…

MySQL的替换函数及补全函数的使用

前提: mysql的版本是8.0以下的。不支持树形结构递归查询的。但是,又想实现树形结构的一种思路 提示:如果使用的是MySQL8.0及其以上的,想要实现树形结构,请参考:MySQL数据库中,如何实现递归查询…

4个杀手级 Pycharm 高效插件

Pycharm是Python最受欢迎的集成开发环境之一。它具有良好的代码助手、漂亮的主题和快捷方式,使编写代码变得简单快捷。 话虽如此,开发者仍可以通过使用一些插件来提高在Pycharm中编写Python代码的效率和乐趣。在市场上,Pycharm有很多免费的插…

【MYSQL】MYSQL 的学习教程(六)之 SQL 语句执行流程

1. 一条 SQL 查询语句是如何被执行的 MySQL 的基本架构示意图如下所示: MYSQL 线程处理请求流程: SQL 接口:MySQL 中处理请求的线程在获取到请求以后获取 SQL 语句去交给 SQL 接口去处理查询解析器:解析器会将 SQL 接口传递过来…