谷歌承认Gemini视频是“剪出来”的,想赶超GPT-4想疯了

前天谷歌DeepMind新发布的Gemini模型刷屏了,大家是不是也和奶茶一样被Gemini的效果震撼到了。觉得谷歌终于又“可以”了,第一个超越GPT-4的模型终于出现了!

然而,仅仅不到一天,谷歌Gemini就翻车了——网友们在仔细分析谷歌宣布的评测效果时,发现Gemini用了很多小动作,疑似“胜之不武”!存在刻意刷榜、夸大性能的嫌疑,演示视频也被扒出是“合成造假”...

大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
http://hujiaoai.cn

而且,谷歌已经承认Gemini视频是“剪出来”的。

这到底是什么情况呢?奶茶带大家来一起“吃吃瓜”。

测评存在“猫腻”

首先在MMLU基准测试中,Gemini Ultra打榜的表现不光超越GPT-4,甚至超越了人类专家。

然而,Gemini的这一表现依赖于CoT@32方法,该方法意思是谷歌使用了思维链提示技巧、每个问题回答32次选出其中出现次数最多的那个答案作为输出。

好家伙,这不是耍流氓吗?这就好比同样是数学考试,GPT-4只有笔和演草纸了,而Gemini却带着计算机。

相比之下,使用不带思维链prompt的标准5-shot方法,GPT-4的性能实际要优于Gemini(86.4%对比83.7%),即在常规MMLU 官方评测中Gemini不如 GPT-4)

谷歌相当于创造了一种CoT@32方法来宣称Gemini的性能优于GPT-4,这种方法很难不受质疑。

网友辣评:"是找了一种特殊的 CoT 方式“看上去”超过了 GPT-4。"

如下图第二列对比,如果让GPT-4也使用CoT@32,效果则超过Gemini!

除此之外,如上图第三列显示,将未对齐的Gemini模型与已经对齐的GPT-4进行比较是不公平的。GPT-4的报告曾经明确指出,模型对齐会降低了知识方面的能力。那么采用未对齐的Gemini和对齐的GPT-4的比较是明显犯规的!

最后,就算谷歌没有搞小动作,假如下表的测试都是公平公正的,Gemini Ultra 也仅比 GPT-4性能高几个百分点,而 GPT-4 其实是 OpenAI在去年8月完成的工作,这意味着谷歌现如今最强大的AI模型仅比 OpenAI 至少一年前完成的工作进行了有限的改进,而且还是对齐后的GPT-4。

演示视频系剪辑合成

相信大家昨天都看到了Gemini的效果演示视频,那叫一个丝滑和惊艳啊!

然而,昨天,国外一位研究员在推特上发布声明,暗示视频中展示的是精心挑选的好结果,而且视频并不是实时录制而是事后剪辑的。

后来谷歌也在一篇博客文章中解释了多模态交互过程,隐隐约约地承认使用静态图片和多段提示词拼凑,才能达成这样的效果。

谷歌在YouTube描述中承认该视频经过编辑:“出于演示的目的,为了简洁起见,延迟已经减少,Gemini 输出的时间也被缩短,”。

这意味着 Gemini 每次响应所花费的时间实际上比视频中的时间要长。

事实上,演示不是实时进行的,或语音进行的。当彭博社问及该视频时,谷歌发言人表示,该视频是通过“使用视频中的静态图像帧并通过文本提示”制作的, 一篇博客展示了其他人如何通过双手照片与双子座进行互动,或图画或其他物体。

测试前先教会Gemini识别、学会石头剪子布

换句话说,演示中的声音正在读出他们向双子座发出的人造提示,并向他们展示静态图像。这与谷歌似乎暗示的完全不同:当 Gemini 实时观察周围的世界并做出反应时,一个人可以与 Gemini 进行流畅的语音对话。

好家伙,原来你也搁这录视频呢!

而且,谷歌在视频中也没有明确指出,这次演示可能是使用了还未上市的 Gemini Ultra 模型(预计明年上市)。谷歌对于接踵而至的批评回应到,视频很多是概念性的,而不是Gemini当前能力的真实反映。

好家伙,比概念的话你和GPT4比啥啊,应该GPT5打啊,估计明年也出了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/263073.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go压测工具

前言 在做Go的性能分析调研的时候也使用到了一些压测方面的工具,go本身也给我们提供了BenchMark性能测试用例,可以很好的去测试我们的单个程序性能,比如测试某个函数,另外还有第三方包go-wrk也可以帮助我们做http接口的性能压测&…

【数据结构】——二叉树功能

前言:我们前面已经了解了二叉树的一些概念,那么我们今天就来了解下二叉树的遍历实现和一些性质。 二叉树的遍历方式有三种:前序,中序,后序。 前序:先根节点,再左子树,最后右子树。 中…

计算机硬件知识小结

计算机组成概览 计算机硬件的五大单元 在介绍计算机硬件基础之前,我们必须了解一下计算机硬件的五大单元(注意这里说的是硬件的五大单元并不是计算机五大单元): 输入设备:无论是计算机五大单元还是计算机硬件的五大单元,这其中必须包含的东西肯定是输入…

Unity中后处理 脚本 和 Shader

文章目录 前言一、我们先创建一个默认的后处理Shader,用于脚本测试二、在脚本中使用Graphics.Blit();1、我们先公开一个材质,用于测试后处理效果2、因为在实际开发中,我们不可能为每一个后处理Shader创建对应的材质球。所以,需要对…

C语言实战演练之跳动的爱心C语言版

跳 动 的 爱 心 - LOVE - 完整程序 #include <stdio.h> #include <math.h> #include <windows.h> #include <tchar.h> float f(float x, float y, float z) {float a x * x 9.0f / 4.0f * y * y z * z - 1;return a * a * a - x * x * z * z …

主机访问Android模拟器网络服务方法

0x00 背景 因为公司的一个手机app的开发需求&#xff0c;要尝试链接手机开启的web服务。于是在Android Studio的Android模拟器上尝试连接&#xff0c;发现谷歌给模拟器做了网络限制&#xff0c;不能直接连接。当然这个限制似乎从很久以前就存在了。一直没有注意到。 0x01 And…

玩转大数据11:数据可视化与交互式分析

1. 引言 数据可视化和交互式分析是大数据领域中的重要方面。随着大数据时代的到来&#xff0c;数据量越来越大&#xff0c;数据类型越来越复杂&#xff0c;传统的数据处理和分析方法已经无法满足我们的需求。数据可视化可以将复杂的数据以简单、直观的方式呈现出来&#xff0c…

Panalog 日志审计系统 sprog_deletevent.php SQL 注入漏洞复现

0x01 产品简介 Panalog大数据日志审计系统定位于将大数据产品应用于高校、 公安、 政企、 医疗、 金融、 能源等行业之中&#xff0c;针对网络流量的信息进行日志留存&#xff0c;可对用户上网行为进行审计&#xff0c;逐渐形成大数据采集、 大数据分析、 大数据整合的工作模式…

docker安装elasticsearch和kibana

docker系列 1、CentOS7安装docker 2、docker安装rabbitmq 3、docker安装mysql docker安装elasticsearch和kibana docker系列一、安装elasticsearch二、安装kibana三、安装ik分词器1、分词器说明2、安装分词器 本篇文章所采用的elasticsearch和kibana版本以及ik分词器都是7.12.…

【trino权威指南】使用trino详解:trino client安装、查询sql、DBeaver连接trino、java通过JDBC连接trino

文章目录 一. Trino CLI1. 安装client2. 使用client执行sql 二. JDBC driver 连接Trino1. 通过DBeaver用户界面连接2. JDBC Driver in java2.1. 环境配置2.2. 注册和配置driver2.3. 连接参数2.4. 查询例子 一. Trino CLI 1. 安装client Trino CLI提供了一个基于终端的交互式s…

大模型专题报告:AI大模型如何赋能智能座舱

今天分享的AI系列深度研究报告&#xff1a;《大模型专题报告&#xff1a;AI大模型如何赋能智能座舱》。 &#xff08;报告出品方&#xff1a;华泰证券&#xff09; 报告共计&#xff1a;32页 智能座舱: 4.0至5.0&#xff0c;从多模态到大模型 问题 1: 座舱智能化演进处于什么…

【MySQL进阶】索引使用

一、索引使用 1.验证索引效率 tb_sku 这张表中准备了 1000w 的记录。 我用夸克网盘分享了「1000w的模拟数据」链接&#xff1a;https://pan.quark.cn/s/15cf665202b2 这张表中id为主键&#xff0c;有主键索引&#xff0c;而其他字段是没有建立索引的。 我们先来查询其中的…