GPT-4在概念推理任务表现不如人类,还需继续学习提高!

圣达菲研究所的科研人员对 GPT-4在推理和抽象能力方面与人类的差距进行了定量研究。他们使用 ConceptARC 基准测试评估了 GPT-4在文本和多模态方面的表现,并发现 GPT-4仍然与人类存在较大差距。对于 GPT-4的抽象推理能力,研究人员发现,无论是纯文本版还是多模态版,GPT-4在抽象推理方面的准确率都远远不及人类。文章指出,要想从 GPT-4的水平发展出 AGI(人工通用智能),还有很长的路要走。

研究论文链接:https://arxiv.org/abs/2311.09247
更多消息:AI人工智能行业动态,aigc应用领域资讯

ConceptARC 是如何测试的?

ConceptARC 是一套基于人工推理与抽象概念的评测系统。它包含了1000多个手动设计的类比谜题任务,每个任务都含有一小段(通常2-4个步骤)网格变换的演示过程,以及一个待检测的“测试输入”网格。被测试对象需要根据演示中的线索,归纳出变换背后的基本规则,然后将规则应用到测试输入网格上,生成出经过相同变换后的结果网格。

如下图,通过观察演示的规则,挑战者需要生成一个新的网格。

ARC(人工概念能力测试)项目的设计目的是强调从有限样本中总结出普遍规律或模式,并能够灵活应用于新的未见样本。这与语言或先前训练数据依赖的“近似匹配”不同,后者可能会在基于语言的推理任务中获得表面成果。

ConceptARC在此基础上进行改进。它收集并组织了480个任务,这些任务围绕若干核心空间和语义概念(如上下、内外、中心、相同不同等)进行了系统化设计。每个任务以不同方式实现某一概念,抽象程度不尽相同。

这种设计改进使概念表征变得更加抽象,从而对人类来说难度相对降低。同时也可以更好地评估GPT模型与人类在解决涉及这些关键概念的抽象推理问题方面的能力差异。这对评估自然语言处理模型在概念推理能力方面的深度提供了一个较好的测试平台。

测试结果,GPT-4比起人类还有很大差距

对于纯文本版本的GPT-4,研究人员给予它更充足的提示信息进行评估。这些提示包含任务说明和示例解答,如果GPT-4答错,会要求它提供二次和三次答案。

研究人员在不同的温度参数设置下测试GPT-4。温度参数控制生成文本的多样性和不确定性程度,温度值越高,表现越随机。对480个完整任务,GPT-4在各温度参数下的正确率都明显低于人类。

相比于纯文本版本,研究人员也测试了多模态版本的GPT-4。它可以利用视觉和语义信息,避免仅依靠语言推理的限制。测试结果显示,在ConceptARC类比推理任务中,多模态GPT-4的表现有了明显提升,但与人类水平的差距还很大,表明模型在概念级抽象推理能力还有很大提升空间,如下图所示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/315411.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vmware安装openEuler 22.03 LTS操作系统

vmware安装openEuler 22.03 LTS操作系统 1、下载openEuler操作系统镜像文件2、安装openEuler操作系统3、配置openEuler操作系统3.1、配置静态IP地址 和 dns3.2、查看磁盘分区3.3、查看系统版本 1、下载openEuler操作系统镜像文件 官网下载链接 链接: https://www.openeuler.or…

生成模型 | GAN系列生成系列论文及代码调研总结

-------------✨ 生成模型 相关系列直达 ✨ ------------------------------------- 🫧 GAN | 代码简单实现生成对抗网络(GAN)(PyTorch)_gan网络代码-CSDN博客 🫧 生成模型 | GAN系列生成系列论文及代码调研…

PS插件一键生成超治愈向日葵花海

金黄色的向日葵总能给人带来治愈的感觉,仿佛在这里能够疗愈心灵所有的伤口。今天我们通过START AI来生成一片美丽的向日葵花海~ 这是小编使用的关键词,负面词需要填写你不想要拥有的,能够让生成的结果更贴合你的想法 最后的生成效果就如下图…

软件史上的绝地反击战!“开源是一场不可逆转的社会运动!” | 新程序员

作者 | 王启隆 责编 | 唐小引 出品 | 《新程序员》编辑部 1998 年,正值计算机科技的黎明时期,硅谷成为了创新摇篮、理想者的乐园。那个时候,年轻的工程师们在键盘上“奋笔疾书”着代码,满是激情地构建着新项目。这个时代充满了活力…

Python零基础入门技能学习,实现办公自动化与数据分析

一、教程描述 Python零基础入门,写下你的第一行人工智能代码,Python实现办公自动化,这是比同事早下班2小时的技能,Python实现网络爬虫,用Python抓取网页信息提升职场竞争力,Python实现数据分析&#xff0c…

LED显示屏的像素解析

LED显示屏像素是用于计算数字影像的单位之一,类似于摄影中的照片,数字影像也具有连续的色调变化。当将影像放大数倍时,可以发现这些连续的色调实际上是由许多相近颜色的小方点组成的,这些小方点被称为构成影像的最小单位——"…

安全与认证Week3

Key Management 密钥管理 密钥交换、证书 密钥的类别 密钥管理方面 密钥分发问题 密钥分发方案 简单的密钥分发:允许安全通信,但不存在先前或之后的密钥。 带机密性和身份验证的密钥分发:提供更高级别的安全性。 混合密钥分发 公钥分发 公开…

超好用的IDEA插件!免费

IDEA是一款功能强大的集成开发环境(IDE),它可以帮助开发人员更加高效地编写、调试和部署软件应用程序。我们在编写完接口代码后需要进行接口调试等操作,一般需要打开额外的调试工具。 今天给大家介绍一款IDEA插件:Api…

2022 年 Java 行业分析报告

你好,我是看山。 前段时间介绍了从 Java8 到 Java17 每个版本比较有特点的新特性(收录在 从小工到专家的 Java 进阶之旅 专栏),今天看到 JRebel 发布了《2022 年 Java 发展趋势和分析》,于是借此分析一下 Java 行业的…

Couchdb 垂直权限绕过漏洞(CVE-2017-12635)

一、漏洞描述 Apache CouchDB是一个开源数据库,专注于易用性和成为”完全拥抱web的数据库”。它是一个使用JSON作为存储格式,JavaScript作为查询语言,MapReduce和HTTP作为API的NoSQL数据库。应用广泛,如BBC用在其动态内容展示平台…

【HarmonyOS开发】通过媒体查询,实现一次开发,多端部署

媒体查询(Media Queries)是一种在CSS中使用的技术,用于根据设备的特性和属性(如屏幕宽度、设备类型等)来应用不同的样式规则。通过媒体查询,可以根据不同的设备或屏幕尺寸为用户提供优化的布局和样式。 1、…

centos7通过systemctl启动springboot服务代替java -jar方式启动

背景:以前启动jar包都是通过java -jar,后面了解到一种注册服务式启动jar包的方式,所以做个记录。 注意:我在写该篇博客的时候,给脚本代码都加了#注释来解释该行脚本命令的意思,所以可能出现复制该篇博客脚本…