Qwen2.5 Max:最有可能是DeepSeek R1的平替

news/2025/2/10 23:34:49/文章来源:https://www.cnblogs.com/miao-zp/p/18708911

新年还没过,推理大模型就开始了卷了,除夕当天Qwen就发布了重磅的Qwen2.5 Max推理模型,

 

一、Qwen2.5 Max

 2025年1月28日,qwen团队发布了Qwen2.5 Max,总体来说,还是很不错的。下面是摘抄他们发表的信息:

We evaluate Qwen2.5-Max alongside leading models, whether proprietary or open-weight, across a range of benchmarks that are of significant interest to the community. These include MMLU-Pro, which tests knowledge through college-level problems, LiveCodeBench, which assesses coding capabilities, LiveBench, which comprehensively tests the general capabilities, and Arena-Hard, which approximates human preferences. Our findings include the performance scores for both base models and instruct models.
我们在社区引起的一系列基准中评估了QWEN2.5-MAX以及主要模型,无论是专有还是开放权重。其中包括MMLU-PRO,它通过大学级别的问题来测试知识,LiveCodebench评估了编码功能,LiveBench,它全面测试了一般能力和竞技场,近似人类的偏好。我们的发现包括基本模型和指导模型的性能得分。

We begin by directly comparing the performance of the instruct models, which can serve for downstream applications such as chat and coding. We present the performance results of Qwen2.5-Max alongside leading state-of-the-art models, including DeepSeek V3, GPT-4o, and Claude-3.5-Sonnet.
我们首先直接比较指令模型的性能,该模型可以用于下游应用程序,例如聊天和编码。我们介绍了QWEN2.5-MAX的性能结果以及领先的最先进模型,包括DeepSeek V3,GPT-4O和Claude-3.5-Sonnet。

 

来源:

QWEN2.5-MAX:探索大型Moe模型的智能| QWEN --- Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen

 

二、使用体验

经过几天的使用体验,发现在速度上和代码能力上都是很强的,不过没有给推理过程,但是也不影响他的强大。接下来讲一下他的使用体验。

1、功能模块

现在可用的就是Artifacts(编程预览)、ImageGeneration(图像生成),在开发的web Search(联网搜索)和Video Generation(视频生成)。

 

2、Qwen2.5 Max测试

 (1)推理对比(DeepSeek R1)

问题一:你认为人类历史上最伟大的四个字是什么?只需要答案不需要解释

Qwen2.5 Max的回答:

 DeepSeek R1的回答:

 

这两个回答,我更喜欢DeepSeek的,更加贴近中国的思想,Qwen就更加普适化,怎么说都没错的感觉了。 

 问题二:你认为人类历史上最伟大的四个字是什么?只需要答案不需要解释

 这样看来,DeepSeek更像文科,Qwen更像理科的思维

 问题三:整理并使用知识图谱分析从中学到大学的数学变化和学习逻辑

Qwen回答的挺理科生的,分点答,而且制作的知识图谱也还可以,还给出一个启示,思考的还是挺面面俱到的

 

对比DeepSeek反而只输出了知识图谱,格式还是一般般:

 看了一下,原来是思考的过程被上下文影响了,这也反映了它还是很强的上下文关联能力

 我们新开一个对话,看看,这次使用的词语更加专业化了,分析的都很学术化,而且都能够整理抽取出来核心内容,还是挺像一个学术型的人一样。

 

 

 问题4:川普当选总统,你用一个四川的口吻写一封英语的祝贺信给他,顺便翻译一下给我看

Qwen还是一如既往的一步一个脚印,按部就班的写出来,不过还是挺有趣的,属于优秀的水平。

 

 我们看看DeepSeek,首先还是思考还是挺正常的流程,但是看看答案不过对比起来Qwen,更有趣,更搞笑。

 

 总结:综合起来看,Qwen更像一个优秀的孩子,水平一直都不错,是隔壁家的孩子,而DeepSeek更像一个活泼的优秀孩子,有点调皮。

 

(2)编程测试

其实我之前用DeepSeek进行开发过,虽然给出了结果,但是每次添加的需求,好像会把以前的串联起来,最后的代码有点怪。直接来看Qwen吧,就是最近需要做一个抽签系统,首先我把需求给它:

1、第一轮,给出的答案是网页的代码是分开的

 2、第二轮,我叫他整合为一个文件,直接输出,没有半点思考

 效果如下:

 导入的姓名是让Qwen生成100个,它给我111个,是不是想要点赞啊。

 3、第三轮第四轮都是优化代码,而且这次上下文关联的很强,都是在当前代码上修改,不会出现变成一个新的页面

 

 下面是最后抽奖的效果对比,左边是第一版,右边是最终版:

  

 虽然是还有点小问题,但是问题不大。

总结:Qwen2.5 Max在测试的网页上可用性非常强,展示了一个程序员的应有素质。

3、图片生成

图片生成对中文不太友好,没有通义和豆包生成的中文字准确,而且把少年闰土化成欧美风,我发现其他的也是欧美风,估计在训练的时候使用的是国外的数据集。

 

 

4、最后想说的

Qwen这次发布的Qwen2.5 Max是非常棒的,能够做到很多事情都是能够独立思考,就像前面连续问了无关的题目,再问整理数学知识的,会按照自己的想法进行,但是DeepSeek会有点关联去思考,但是独立来问的话,丰富性还是DeepSeek R1的好。另外他的编程还是很放心的,能够把需求做到有求必应,还能做到在原有的基础上改进,是很强的表现了,甚至比Cursor的好。如果DeepSeek R1还是网络繁忙,我会主要使用Qwen2.5 Max,后续他还会出联网搜索和视频生成,不过生图这些功能会考虑成熟的像豆包通义这些。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/881909.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第一课 通用流程

其中\(\text{KNN}\)使用已经很少了,\(\text{SVM}\)在中小型数据集上表现很好目录了解场景和目标了解评估准则认识数据数据预处理数据清洗数据采样特征工程特征处理数值型类别型时间类文本型统计型组合特征特征选择过滤法包装法嵌入法模型融合BaggingStackingBoosting 了解场景…

DeepSeek本地化部署超简单,比装个office还简单

一、背景 最近DeepSeek太火了,以至于每位伙伴都想尝试,都想说上几句。作为一名程序员,不仅想使用这个DeeptSeek的AI工具,还是用其做更多的事情,比如本地化部署、构建自己的知识库,或者其他的应用。 本以为DeepSeek本地化部署有多难,实际上验证后很简单,任何普通人只要会…

【CTF】内存取证分析

免责声明: 此文转载自Tide安全团队原创文章,转载请声明出处!文中所涉及的技术、思路和工具仅供以安全为目的的学习交流使用,任何人不得将其用于非法用途给予盈利等目的,否则后果自行承担!一、基本概念 内存取证是指从计算机内存(RAM)中提取和分析数据的过程。当计算机运…

如何轻松保存或导出 Windows 聚焦图片

转自:https://www.sysgeek.cn/save-windows-spotlight-images/ Windows 聚焦功能可以让桌面和锁屏界面每天都呈现新的风景。如果你看到某张特别喜欢的图片,想要长期使用,要怎么找到图片在哪儿呢?本指南将教你如何在 Windows 11 和 Windows 10 上,轻松找到并保存 Windows 聚…

2025/2/10课堂记录

树上依赖背包,分组背包,vector邻接表,选课,树上dp,叶子的染色,链式前向星邻接表,数字转换,树的直径目录选课 叶子的染色 数字转换选课分组背包题 这次是自己写的代码了,也就瞟了标准答案几眼,真的就几眼用的也是vector邻接表#include<iostream> #include<ve…

3.4 什么是浮点数

很多编程语言中都提供了两种表示小数的数据类型,分别为双精度浮点数和单精度浮点数 双精度浮点数类型用64位、单精度浮点数类型用32位来表示全体小数。 在C语言中,双精度浮点数类型和单精度浮点数类型分别用double和float来表示 浮点数是指用符号、尾数、基数和指数这四部分来…

响应

ResponseBody注解 位置:controll类和方法 作用:将方法返回值直接相应,如果是实体对象和集合转成Json形式再相应、 统一响应格式 result里有静态方法

并行计算架构和编程 | 目录

from pixiv JW资源汇总 前言 开新坑了,尽量完成它吧. 此篇博客为目录章节,主要汇总学习过程中用到的资料,记录时间线。 SourceCS自学指南 CMU 15-418/Stanford CS149: Parallel Computing 了解此课程的主要起始地,下面的评论含有价值的信息 PKUFlyingPig/CS149-parallel-co…

使用Microsoft/Windows LAPS管理本地管理员密码

什么是LAPS Local Administrator Password Solution,简称LAPS,是微软提供的一种用于管理本地管理员密码的解决方案。用于在Active Directory(AD)环境中自动管理和轮换众多客户端Windows的本地管理员账户及密码。 在没有这个工具之前, 本地管理员密码管理会非常的复杂。比如…

Avalonia系列文章之布局简介

在UI设计中,页面布局非常重要,良好的布局不仅可以有效的利用空间,还能提升交互体验,以达到事半功倍的效果。所以对于Avalonia UI初学者来说,布局控件的了解与学习也非常的重要,今天以一些小例子,简述Avalonia UI框架中布局控件的使用,仅供学习分享使用,如有不足之处,…

ACM寒假集训第四期

ACM寒假集训第四期 有理数取余 思路 bx=a mod m x=((a mod m) * ( b^(-1) ) mod m)) mod m; 问题就转化为如何求解 b 的逆元 b x = 1 mod m ,b对m的逆元,当 gcd(b,m)=1 时才存在。存在 bx+my=1 通过辗转相除法可以得到b,m的最大公约数然后根据最后得到的一系列等式合并为 bx+m…