OpenAI o1模型揭秘:通过LLMs学习推理能力

news/2024/9/23 11:28:57/文章来源:https://www.cnblogs.com/xfuture/p/18426714

file

OpenAI推出了o1,这是一种通过强化学习训练的大型语言模型,专门用于进行复杂的推理任务。o1在回答问题之前会“思考”,能够在响应用户之前生成一条长的内部思维链。

在编程竞赛问题(Codeforces)中,OpenAI o1的排名在89%分位,位列美国数学奥林匹克预选赛(AIME)前500名学生之列,并且在物理、生物和化学问题的基准测试(GPQA)中超越了博士级别的准确率。尽管OpenAI仍在努力使这个新模型像当前模型一样易于使用,但已经发布了该模型的早期版本,即OpenAI o1-preview,供ChatGPT和可信API用户立即使用。

OpenAI使用的大规模强化学习算法教会了模型如何高效地利用其思维链进行推理。研究发现,o1的表现随着更多的强化学习(训练时计算量)和更多的思考时间(测试时计算量)而不断提高。OpenAI仍在继续研究这种方法的扩展限制,因为它与传统LLM的预训练方法有着显著的不同。

file

评估

为了突出与GPT-4o相比的推理能力提升,OpenAI在一系列人类考试和机器学习基准测试上对o1进行了测试。结果显示,o1在绝大多数以推理为主的任务上显著超越了GPT-4o。除非特别说明,OpenAI均在最大测试时间计算设置下评估了o1。

file

file

o1在复杂的推理基准测试中大幅领先于GPT-4o。在许多推理为主的基准测试中,o1的表现可媲美人类专家。对于一些如MATH和GSM8K的前沿模型表现如此优异,以至于这些基准测试已无法有效区分不同模型的能力。因此,OpenAI在AIME(美国数学竞赛)上对数学能力进行了评估,该竞赛专为挑战美国最优秀的高中生而设计。2024年AIME考试中,GPT-4o平均只能解出12%(1.8/15)的题目,而o1的平均解题率达74%(11.1/15),共识解(64个样本)解题率为83%(12.5/15),经过1,000个样本重新排序后的解题率为93%(13.9/15),这一分数将o1排在美国前500名学生之列,并超过了美国数学奥林匹克的入围线。

OpenAI还在GPQA钻石基准测试上对o1进行了评估,该测试旨在检验化学、物理和生物学领域的专业知识。为了将模型与人类专家进行比较,OpenAI招募了拥有博士学位的专家来解答GPQA钻石问题。结果表明,o1超越了这些人类专家的表现,成为首个在该基准测试上胜过人类的模型。这并不意味着o1在所有方面都比博士更胜一筹,只是表明该模型在解决某些博士级问题上表现得更为出色。o1在许多其他机器学习基准测试上也超越了现有的最先进模型。开启视觉感知功能后,o1在MMMU测试中的得分达到了78.2%,成为首个在该测试中与人类专家竞争的模型。o1还在57个MMLU子类别中的54个超越了GPT-4o。

思维链

类似于人类在回答复杂问题前会进行深思熟虑,o1在试图解决问题时也会利用思维链。通过强化学习,o1学会了完善其思维链,并优化解决问题的策略。它学会识别并纠正错误,学会将复杂的步骤拆分为更简单的步骤,学会在当前方法无效时尝试其他方法。这一过程极大地提升了模型的推理能力。为了展示这一重大进步,OpenAI展示了o1-preview在几个复杂问题上的思维链。

编程能力

OpenAI训练了一种模型,该模型在2024年国际信息学奥林匹克竞赛(IOI)中获得213分,位列第49%分位。这个模型是以o1为基础,并通过进一步训练其编程技能而发展出来的。在与人类参赛者相同的条件下,该模型在10小时内解决了6道复杂的算法问题,并允许每个问题提交50次。模型通过大量候选提交,并根据测试时的选择策略提交了50次。如果OpenAI随机提交,平均得分仅为156分,而该策略的应用使得得分提高了近60分。

当放宽提交限制时,OpenAI发现模型表现显著提高。在每个问题允许提交10,000次的情况下,即使没有任何测试时选择策略,该模型的得分达到了362.14分,超出了金牌门槛。

最后,OpenAI模拟了由Codeforces主办的编程竞赛,展示了该模型的编程技巧。OpenAI的评估严格遵循比赛规则,并允许提交10次。GPT-4o的Elo评分为808,处于人类参赛者的第11%分位。o1则远远超过了GPT-4o和o1-preview,达到了1807的Elo评分,超过了93%的参赛者。

file

人类偏好评估

除了考试和学术基准测试,OpenAI还评估了人类对o1-preview和GPT-4o在挑战性开放性问题上的偏好。在这项评估中,人工训练师会看到o1-preview和GPT-4o的匿名响应,并投票选择他们更喜欢的回答。在推理密集型领域,如数据分析、编程和数学,o1-preview的表现大幅领先于GPT-4o。然而,在某些自然语言任务中,o1-preview的表现不如GPT-4o,这表明它并不适合所有用例。

file

安全性

思维链推理为模型对齐和安全提供了新的机会。OpenAI发现将模型行为的政策融入推理模型的思维链中,是一种有效传授人类价值观和原则的方法。通过教导模型安全规则并让其在上下文中推理这些规则,OpenAI发现推理能力能够直接增强模型的稳健性:o1-preview在关键的越狱测试和最难的内部安全评估中表现显著提升。OpenAI相信,思维链推理在安全性和对齐方面带来了显著进展,因为(1)它使得观察模型的思维过程变得更容易,(2)模型在思考安全规则时,能够更好地应对分布外的场景。

为了检验这些改进,OpenAI在部署前进行了全面的安全测试和红队测试,并遵循了OpenAI的准备框架。研究发现,思维链推理对提升模型能力评估起到了重要作用。特别值得注意的是,OpenAI在测试中观察到了一些有趣的奖励滥用现象。详细结果可以在随附的系统卡中找到。

隐藏的思维链

OpenAI认为,隐藏的思维链为监控模型提供了独特的机会。假设思维链是可信且易读的,隐藏的思维链允许OpenAI“读取”模型的思维过程,理解它的推理过程。例如,将来可能希望通过监控思维链来识别模型是否在操纵用户。然而,为了使这一方法有效,模型必须拥有自由表达其思维的能力,因此OpenAI不能将任何政策合规性或用户偏好训练到思维链中。同时,OpenAI也不希望将未对齐的思维链直接展示给用户。

因此,经过多方面的权衡,包括用户体验、竞争优势以及追求思维链监控的选项,OpenAI决定不向用户展示原始的思维链。OpenAI认识到这一决定有其劣势,但会通过让模型在答案中重现思维链中的有用想法来部分弥补这一缺陷。对于o1系列模型,OpenAI展示了由模型生成的思维链摘要。

结论

o1显著推动了AI推理能力的前沿发展。OpenAI计划继续迭代并发布改进版本,期待这些新的推理能力将进一步提高模型与人类价值观和原则的对齐程度。OpenAI相信o1及其后继者将为科学、编程、数学及相关领域的AI应用开辟新的可能性,并期待用户和API开发者发现它如何改进日常工作。

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/802100.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站数据库为什么连接失败

网站数据库连接失败可能有以下几个常见原因:数据库配置错误:数据库连接参数配置错误,如用户名、密码、主机地址、端口号、数据库名称等配置不正确。 应用程序中的数据库配置文件(如WordPress中的wp-config.php)可能包含了错误的信息。网络问题:数据库服务器与应用程序服务…

Spark(五)运行环境(一)

Local模式不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等 在IDEA中运行代码的环境称之为开发环境1、解压缩文件将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格 压缩文件放在/opt/so…

树上数据结构问题

天天爱跑步 假设现在又一棵树如果一个人要从 \(3\) 跑到 \(5\),那么如果在 \(2\) 点的观察员要满足 \(w[2] = dep[2] - dep[3]\),如果在点 \(4\) 的观察员要满足 \(w[4] = dep[fa[lca]] - dep[3] + dep[lca] - dep[4]\),简单来说就是如果处于 \(i\) 点的观察员可以观察到,那么要…

为什么网站连接数据库失败?

网站连接数据库失败通常是由以下几个主要原因造成的:数据库凭据错误:如果数据库用户名、密码或主机名错误,网站将无法建立数据库连接。请检查wp-config.php文件中的数据库连接信息是否正确。数据库服务器故障:数据库服务器宕机或无法访问也会导致连接失败。检查数据库服务是…

mqtt网关数据接入rabbitmq,缓存离线数据,实现消息保留

应用场景:网关将设备数据发布至mqtt服务器后,数采程序因为重启或者升级等原因,未能接到到离线的订阅消息,利用rabbitmq-mqtt可将离线数据缓存,待上线后接收启用mqtt插件 rabbitmq-plugins enable rabbitmq_mqtt qq:505645074

WordPress网站遇到“数据库连接错误”报错解决方法

当遇到WordPress网站出现“数据库连接错误”时,可以通过以下步骤来逐步排查和解决问题: 1. 确认数据库连接信息用户名和密码:确保数据库用户名和密码正确无误。 服务器地址:确认数据库服务器地址(通常是localhost,但也可能是其他地址)正确无误。2. 检查 wp-config.php 文…

clickhouse压测

Clickhouse压测 压测工具:jemter服务器监控脚本sql准备:简单sqlselect * from tb_plan_student where plan_id=1122980766105344 and region_id=330302 limit 10简单sql---部分字段select student_id,student_name from tb_plan_student where plan_id=1122980766105344 and…

国产化:TongRDS替代Redis

背景: 国产化要求,内存数据缓存中间件要换国产产品,这里简单记录一下替换过程,项目是 spring boot 微服务结构。官方文档比较全,这里只是个人记录的最简化的版本。1 安装 企业版 TongRDS 分为2个节点,我拿到的版本就是企业版,所以下面的都默认是企业版。分为中心节点和服…

阿里云mysql数据库服务器错误怎么回事

阿里云MySQL数据库服务器错误可能由多种因素造成,以下是一些常见的原因及解决方法:网络配置错误:检查服务器的网络配置,确保防火墙设置允许来自客户端的连接请求。 确认IP地址或域名解析正确,且客户端能够通过网络访问到数据库服务器。MySQL服务未启动:确认MySQL服务已经…

数据库连接错误:原因与解决方案

数据库连接错误可能由多种因素引起,下面列出了一些常见的原因及其解决方案: 常见原因及解决方案配置错误原因:数据库连接字符串中的参数错误,如主机名/IP地址、端口号、数据库名称、用户名或密码不正确。 解决方法:检查并确认连接字符串中的所有参数都正确无误。网络问题原…

淘宝商品评论API:电商数据的宝库

淘宝商品评论API是淘宝开放平台提供的一项服务,它允许开发者获取商品的用户评价信息,包括评分、评论文本、图片和视频等。这些数据对于商家来说是一个宝贵的资源,因为它们直接反映了消费者的真实感受和需求。实时分析用户反馈的重要性 提升客户满意度:通过实时分析用户反馈…

2 用户注册

创建用户模块应用在apps包下创建子应用 users python ../manage.py startapp users注册模块应用 INSTALLED_APPS=[ ... apps.users ]