Qwen2-Math,新一代数学模型

news/2024/11/13 15:10:31/文章来源:https://www.cnblogs.com/jssst/p/18370042

原文链接:https://qwenlm.github.io/zh/blog/qwen2-math/

image

友情链接

Github:https://github.com/QwenLM/Qwen2-Math
Hugging Face:https://huggingface.co/Qwen
ModelScope:https://modelscope.cn/organization/qwen
Discord:https://discord.gg/yPEP2vHTu4

🚨此模型目前主要支持英语。我们将尽快推出中英双语版本。

简介

在过去的一年里,我们非常关注大模型的推理能力的提升,尤其关注其在数学相关的任务上的表现。今天,我们非常高兴地介绍 Qwen2 开源家族的新成员——Qwen2-Math-1.5B/7B/72B 系列。Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o)。我们希望Qwen2-Math能够为科学界解决需要复杂多步逻辑推理的高级数学问题做出贡献。

我们在一系列数学基准评测上评估了我们的数学专用模型 Qwen2-Math。在 Math 上的评测结果表明,我们最大的数学专用模型 Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

image

Qwen2-Math基础模型

Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练,该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。

我们在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了我们的 Qwen2-Math 基模型。此外,我们还评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

image

Qwen2-Math指令微调模型

我们首先基于 Qwen2-Math-72B 训练了一个数学专用的奖励模型。然后,我们将这个密集的奖励信号与一个二元信号结合,该二元信号指示模型是否正确回答了问题。这个组合信号被用作监督来通过拒绝采样构建 SFT 数据,并在此SFT模型的基础上进一步使用 GRPO 来优化模型。

我们对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测,如 GSM8K 和 MATH 之外,我们还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力,例如 OlympiadBench、CollegeMath、高考(GaoKao)、AIME2024 以及 AMC2023。对于中文的数学评测集,我们使用了 CMATH、2024年中国高考数学题以及2024年中国中考数学题。

我们汇报了在 greedy 和 RM@8 的条件下模型在各个基准评测上的 0-shot 成绩,对于选择题类型的题目,如 MMLU(STEM),我们使用了 5-shot 进行评测。

image

image

案例分析

这里我们列举了一些测试的竞赛题,其中包括了多道 IMO 竞赛题。通过评测及具体样例分析,我们发现 Qwen2-Math 已经具备了解决一些简单竞赛题的数学能力。欢迎下方查看样例!

所有解决方案均由我们的模型生成,未经过任何修改。请注意,我们不保证过程中的陈述是正确的。

Problem From IMO Shortlist 2002

image

更多案例请看:https://qwenlm.github.io/zh/blog/qwen2-math/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/784461.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【待做】【安全框架】【日志管理平台】

为了更好的了解各业务系统的运行状态,企业通常需要搭建统一的日志中心,并将各业务系统的系统日志、应用程序日志和安全日志传送到日志平台。 系统管理员和业务负责人通过日志,可以详细了解服务器软硬件信息、系统运行状况以及风险,从而及时采取对应的应对措施。一、对比传统…

解决某些安卓系统webview版本低于92无crypto .randomUUID方法

let uuid = crypto.randomUUID(); 提示没crypto这个对象, 经查询后得知是安卓机器内置版本太低,需要自己实现一下 代码如下: function randomUUID() {return 10000000-1000-4000-8000-100000000000.replace(/[018]/g, c =>(+c ^ crypto.getRandomValues(new Uint8Array(1))[…

JavaSE基础知识分享(十一)

今天继续讲Java连接MySQL数据库和Java中的对象流(序列化与反序列化)的知识!写在前面 今天继续讲Java连接MySQL数据库和Java中的对象流(序列化与反序列化)的知识! Java 与 MySQL 连接 要使用 Java 操作 MySQL 数据库,我们需要通过 JDBC(Java Database Connectivity)进行…

py2puml 是一个用于将 Python 代码转换为 PlantUML 图的工具,python代码生成py2puml案例

py2puml 是一个用于将 Python 代码转换为 PlantUML 图的工具,但它可能不是广泛认知或广泛使用的库,因为存在多个类似名称的工具和库,且它们的功能和用法可能有所不同。不过,基于你的需求,我将提供一个假设性的例子,说明如何使用一个假想的 py2puml 库来生成 Python 代码的…

Jumpserver 忘记admin(超级管理员)登录密码——解决方式

1. 登录失败 由于各种原因导致多次尝试密码登录失败:2. 解决办法 2.1 查看docker运行的进程 [root@jumpserver01 ~]$ docker ps2.2 进入jumpserver01 这个容器,进行修改账户密码 [root@jumpserver01 ~]$ docker exec -it jumpserver01 /bin/bash# 如果没有按装django 需执行下…

Python、R用RFM模型、机器学习对在线教育用户行为可视化分析|附数据、代码

全文链接:https://tecdat.cn/?p=37409 原文出处:拓端数据部落公众号 分析师:Chunni Wu 随着互联网的不断发展,各领域公司都在拓展互联网获客渠道,为新型互联网产品吸引新鲜活跃用户,刺激用户提高购买力,从而进一步促进企业提升综合实力和品牌影响力。然而,为了更好地了…

有题

今天又有谁要女装,快我可以赞助

制造业生产管理流程图

制造业生产管理流程图

NSSCTF [SWPUCTF 2021 新生赛]crypto8

NSSCTF [SWPUCTF 2021 新生赛]crypto8开启环境,什么东西?只有一个文件???那就先下载下来看看73E-30U1&>V-H965S95]I<U]P;W=E<GT`这样一串字符,没有网页,只有文件,那肯定是用某种加密方式加密之后的结果。但是这个形式的加密是真没见过,才疏学浅,只能先上…

Element Plus 应用和router应用

1.Element Plus 折叠按钮的应用 el-menu组件为最初框架 el-menu-item 子框架 按钮键 el-sub-menu 折叠按钮 .el-menu--horizontal > .el-menu-item:nth-child(7) { margin-right:auto; } 位置样式 const activeIndex = ref(1)使用索引 main.js中引用全局 ElementPlus 引用…

数据结构-队列 c语言使用链表和数组分别实现

基于链表和数组两种方法实现的队列 C语言队列 定义 队列(queue)是一种遵循先入后到规则的线性数据结构,将队列头部称为“队首”,尾部称为“队尾”,把元素加入队尾称为“入队”,删除队首元素称为“出队”。队列实现 基于链表的实现 将链表的头节点和尾结点分别视为“队首”和…

liunx下安装Nginx

Linux下nginx的安装以及环境配置https://blog.csdn.net/qq_42815754/article/details/82980326第一步:下载nginx压缩包 在这里可以去nginx官网下载 https://nginx.org/en/download.html 也可以直接使用wget命令下载,指令如下所示(请根据自己的需求进行下载):建议选择官网发…