GPT-4o: 从最难的“大海捞针”基准看起

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区,可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。技术宅麻烦死磕LLM背后的基础模型。当然最重要的是订阅跟随“鲁班模锤”

“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以很优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。”--Sam Altman
"...a key part of our mission is to put very capable AI tools in the hands of people for free (or at a great price). I am very proud that we’ve made the best model in the world available for free in ChatGPT, without ads or anything like that."--Sam Altman

GPT-4o

OpenAI周一宣布了一款新的生成式AI模型,GPT-4o(omni),代表着模型全能,能够处理文本、语音和视频的能力。GPT-4o将在未来几周内推出。OpenAI 首席技术官Mira Murati表示,GPT-4o不仅提供“GPT-4 级别”智能,还改善了GPT-4跨多种模式和媒体的能力。 “这非常重要,因为我们正在研究我们自己与机器之间交互的未来。”

GPT-4 Turbo是OpenAI之前最先进的模型,它接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像的内容等任务。

周一发布的GPT-4o将语音融合,从而支持各种新应用。用户现在可以像真正的助手一样与 ChatGPT进行交互,享受实时响应,临时打断以及动态的交互。GPT-4o甚至可以捕捉声音的细微差别,并产生不同情感风格的反应,包括唱歌。

比如

  • 在对话时可以随时打断;

  • 根据场景生成多种音调,带有人类般的情绪和情感;

  • 通过和AI视频通话让它在线解答各种问题

Gpt-4o Demos

GPT-4o的模型架构由经验丰富的专家团队领导,拥有多个关键组件,其中

  • Reimar Leike主导的预训练策略优化和高级的Tokenizer技术

  • Heewoo Jun和Allan Jabri指导下的强大编码器和解码器

  • Prafulla Dhariwal和Alexander Kirillov牵头进一步提升其多模态的能力,使得模型能够无缝处理各种数据类型。

从最难的“大海捞针”基准看起

网上其他基准的评估很多,这里选取两种另类的评估来展示它的实力。大海捞针(needle-in-a-needlestack)测试是一种评估方法,它通过在长文本中随机插入关键信息,形成大型语言模型(LLM)的Prompt。该测试旨在检测大型模型是否能从长文本中提取出这些关键信息,从而评估模型处理长文本信息提取的能力,这可以反映LLM对长文本的理解基础能力。

任务介绍在OpenCompass的NeedleBench框架中,为了全面评估模型在长文本信息提取和推理方面的能力而设计的难度增加的测试方案。

  • 单一信息检索任务(Single-Needle Retrieval Task, S-RT):评估LLM在长文本中提取单一关键信息的能力,测试其对广泛叙述中特定细节的精确回忆能力。这对应于原始的大海捞针测试任务设定。

  • 多信息检索任务(Multi-Needle Retrieval Task, M-RT):探讨LLM从长文本中检索多个相关信息的能力,模拟实际场景中对综合文档的复杂查询。

  • 多信息推理任务(Multi-Needle Reasoning Task, M-RS):通过提取并利用长文本中的多个关键信息来评估LLM的长文本能力,要求模型对各关键信息片段有综合理解。

  • 祖先追溯挑战(Ancestral Trace Challenge, ATC):通过设计“亲属关系针”,测试LLM处理真实长文本中多层逻辑挑战的能力。在ATC任务中,通过一系列逻辑推理问题,检验模型对长文本中每个细节的记忆和分析能力。在这个场景去掉了无关文本(Haystack)的设定,而是将所有文本设计为关键信息,LLM必须综合运用长文本中的所有内容和推理才能准确回答问题。

直到今天,还没有LLM能够在这个基准上表现得很好。NIAN是一个包含数千首打油诗的prompt ,prompt 的提问让大模型给出与提问相关的特定位置的打油诗。

prompt是由一系列打油诗组合而成(比如2500首的打油诗),在最后会存在一个问题。问题询问的是会和其中一首打油诗相关。需要简洁地回答问题。

下面的实验中,先来看看GPT-4 Turbo 和 Claude-3 Sonnet的表现 ,再来看看Mistral最新的8x22模型。Mistral最新的8x22模型在这个基准测试中也遇到了很大的困难。即使在提示开始时,它也只能正确回答问题 50% 。Mistral Large 做得更好,但仍然只达到 70%正确率。

GPT4-TurboClaude-3

open-mixtral-8x22bmistral-large-latest

<==看看这条丝滑的曲线就可以管中窥豹,GPT-4o的能力突破。

再来看看Aider排名

Aider主要是评估LLM的编辑代码能力,而不是编写代码能力。为了评估 LLM的这项技能,Aider使用一对基准来评估模型是否遵循系统的要求来编辑代码的能力。GPT-4o以72.9%在编辑代码的排行榜上名列前茅,而Opus则为 68.4%。

GPT-4o以62.9%在重构排行榜上排名第二,输给了Opus的72.3%。

在人工智能创新领域,GPT-4o是人类聪明才智和协作的证明。凭借其突破性的架构、多样化的应用和潜在的影响,代表着通用人工智能的探索又向前迈出的重要一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/701060.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CS144 Checkpoint 4: interoperating in the world(2024)

分析网络路径和性能&#xff1a; mtr命令 mtr 输出的详细分析&#xff1a; mtr 162.105.253.58 命令用于结合 traceroute 和 ping 的功能&#xff0c;实时监测并分析从你的计算机到目标主机&#xff08;IP 地址 162.105.253.58&#xff0c;北京大学计算中心&#xff09;之间…

如何压缩图片大小?7个实用软件教你快速压缩图片大小

如何压缩图片大小&#xff1f;7个实用软件教你快速压缩图片大小 以下是七个实用的软件&#xff0c;可以帮助您快速压缩图片大小&#xff1a; 图片编辑助手&#xff1a;这是一款功能强大的图像处理软件&#xff0c;其中包含了图像压缩功能。您可以打开需要压缩的图片&#xf…

MyBatis缓存的概念

缓存回顾 什么是缓存&#xff1f; 缓存就是内存中的数据&#xff0c;常常来自对数据库查询结果的保存。使用缓存可以避免频繁与数据库交互&#xff0c;进而提高 响应速度 。 MyBatis 对缓存的支持 MyBatis 也提供了对缓存的支持&#xff0c;分为 一级缓存 和 二级缓存。可以…

【数据可视化01】matplotlib实例介绍4之六边形分箱图

目录 一、引言二、实例介绍 一、引言 hexbin是一个二维直方图&#xff0c;其中箱子是六边形&#xff0c;颜色表示每个箱子内的数据点数。 二、实例介绍 import matplotlib.pyplot as plt import numpy as np# Fixing random state for reproducibility np.random.seed(19680…

LLM Agent智能体综述(超详细)

前言 &#x1f3c6;&#x1f3c6;&#x1f3c6;在上一篇文章中&#xff0c;我们介绍了如何部署MetaGPT到本地&#xff0c;获取OpenAI API Key并配置其开发环境&#xff0c;并通过一个开发小组的多Agent案例感受了智能体的强大&#xff0c;在本文中&#xff0c;我们将对AI Agent…

draw.io 网页版二次开发(2):开始修改代码

目录 一 说明 二 打开开发环境 1. 代码调整 2. 修改访问链接 3. 注意 三 部分功能的代码汇总 1. 保存功能 2. 菜单栏折叠按钮功能 3. 顶部菜单栏 4.在顶部菜单栏中的【文件】菜单中新增选项 &#xff08;1&#xff09; 方法一&#xff1a;单独增加 &#xff08;…

Kubernetes 群集部署

一、Kubernetes 概述 1.1、什么是 Kubernetes Kubernetes 是一个可移植、可扩展的开源容器编排系统&#xff0c;主要用于自动化部署、扩展和管理容器应用&#xff0c;提供资源调度、部署管理、服务发现、扩容缩容、监控等功能。对于负载均衡、服务发现、高可用、滚动升级、自…

android自定义view仿微信联系人列表

说明&#xff1a;最近碰到一个需求&#xff0c;弄一个类似国家或省份列表&#xff0c;样式参照微信联系人 文件列表&#xff1a; step1:主界面 加载列表数据~\app\src\main\java\com\example\iosdialogdemo\MainActivity.java step2:右侧列表数据排序~\app\src\com\example\io…

Python 3 中zip()函数的用法

1 创作灵感 我们在阅读代码的时候&#xff0c;经常会看到zip函数&#xff0c;有的时候还和循环在一起用&#xff0c;今天举几个例子测试一下该函数的用法 2.应用举例 &#xff08;1&#xff09;定义了两个列表一个是num,一个是letter (2)使用zip可以把num列表和letter列表中…

计算机vcruntime140.dll找不到如何修复,分享5种靠谱的修复教程

当您在运行某个应用程序或游戏时遇到提示“找不到vcruntime140.dll”&#xff0c;这通常意味着系统中缺少了Visual C Redistributable for Visual Studio 2015或更高版本的一个重要组件。这个错误通常发生在运行某些程序时&#xff0c;系统无法找到所需的动态链接库文件。小编将…

element-ui的表单中,输入框、级联选择器的长度设置

使用<el-col>控制输入框的长度 <el-form-item label"姓名" label-width"80px"><el-col :span"15"><el-input v-model"form.name" autocomplete"off"></el-input></el-col></el-form…

Sectigo SSL证书申请的流程是怎样的?

在当今数字化时代&#xff0c;网络安全成为了一个不可忽视的问题。为了保护网站和用户数据的安全&#xff0c;SSL证书成为了网站运营的重要组成部分。Sectigo作为全球领先的数字证书颁发机构之一&#xff0c;提供了一系列的证书解决方案来满足不同类型网站的需求。以下是对Sect…