阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

6 月 27 日,全球知名的开源平台 Hugging Face 的联合创始人兼首席执行官 Clem 在社交平台激动宣布,阿里 Qwen2-72B 成为了开源模型排行榜的王者。

Clem社交平台消息

这是一件大好事,说明了我们在大模型领域从先前的追赶,逐渐走向了领导,未来完全有可能会引领着全球开源模型的发展潮流,这是我们的骄傲!

不过话说回来,Qwen2 序列有 5 个参数版本,分别是 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B。本次排行榜第一的是 Qwen2-72B 参数版本,那么其他参数版本的评测结果如何呢?老牛同学查看了 Qwen2 的官方文档,有一些比较评测:https://qwenlm.github.io/zh/blog/qwen2/

Qwen2-72B 如 Clem 宣布一样,包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型:

Qwen2-72B评测结果

Qwen2-7B 模型在自然语言理解数学 方面均有点落后了:

Qwen2-7B评测结果

其他参数版本没有评测结果,老牛同学猜测是其他大模型没有对等的参数版本,因此无法进行比较,或者不相上下,也就没有必要把结果放出来了。

老牛同学的疑问

那么老牛同学的问题来了:阿里 Qwen2-72B 大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

老牛同学带着这个问题咨询了几位同事,也问了Qwen2-7B大模型,他们的回答均有一定道理,但老牛同学猜测,Qwen 这么做的核心目的只有一个:丰富 Qwen 大模型生态

原因一: 训练 Qwen 中小尺寸参数成本并不高】

以阿里人才储备、基础设施和高层 All in AI 的决心和投入,训练 Qwen 中小参数版本的模型应该不是什么难事,顺手即可做的事情,相对来说成本并不高

原因二: 快速进行迭代和模型参数优化演进】

通过快速发布多个尺寸的模型,可以让内外部的技术究人员分析和探索模型的参数规模与性能之间的关系,以便能找到最佳的平衡点,最终不断推动优化和演进 Qwen 系列大模型

原因三: 构建和丰富 Qwen 大模型全场景生态】

老牛同学认为这是最为关键的一点,开源不是目的、打榜争第一也应该不是目的,它们都只是构建并丰富生态的策略!老牛同学和大家一起来回顾 2 件事情:

Windows XP 生态: 我们还记得二零零几年的时候,满大街 Windows XP 的盗版操作系统吗?操作系统激活竟然也可以是路边打印小店的一大业务。那么,盗版这么多,微软为什么不管管?是他不知道吗,还是根本管不了?老牛同学觉得都不是,应该是微软故意放任不管:微软要赚的是企业的钱,包括 IT 公司、电脑厂商等,个人的钱不太好赚;同时,使用 Windows 操作系统的个人越多,会带动 Windows 生态发展(使用技巧和攻略、研发各种各样的软件等),进而能拉动更多使用的个人,同时对于企业来说意味着熟练的工人也越多,企业为降低成本,自然就愿意采购 Windows 正版授权,最终还是微软赚钱了!

阿里云 OS 生态: 老牛同学在二零一几年的时候看到过一张图片,图片展示的是当时的阿里 CTO 王坚博士在报告台上擦眼泪。传说是王坚博士在给一群高管做汇报,汇报内容是阿里云和手机操作系统(云 OS)。云计算在当时的中国没有任何一家企业有布局,但王坚博士坚信云计算和云 OS 的未来,他作为第一个吃螃蟹的人,在技术研发和基础设施等方面的投入成本都非常巨大,受到了一些高管和投资人的质疑,因此他边做着汇报边流着委屈的流泪。辛亏当时马老师力排众议,支持王坚博士的想法,如今阿里云在国内技术或市场上称第二,应该没有其他云能自信的称第一了。

反观 云 OS 我们几乎感知不到了,很大一个原因是 没有生态:云 OS 曾经和国内的一些手机厂商合作推出过一些手机品牌(如 小辣椒大黄蜂等),和比较大的厂商 宏基 的合作新闻发布会,后者也因 Google Android 的压力不得不放弃合作。Google 对云 OS 抄袭 Android 的 API 代码的状告一直不断。老牛同时当时咨询过一位负责云 OS 短信模块的技术同学,为什么云 OS 的 API 需要和 Android 保持一致,是技术能力不够吗?技术同学告诉老牛同学,操作系统都能研发出来,API 并没有什么技术难度,但是如果 API 不能和 Android 保持一致,那么已有的 Android APP 将无法接入,所以必须要兼容保持一致,否则没有了 Android 的生态,操作系统要推广就难于登天了。

如今,云 OS 虽然没有成为手机操作系统,但它却在车载(斑马网络)、智能家居(电视、天猫精灵等)等 OS 中大放异彩。

而 Qwen 系列大模型的 Qwen2-0.5BQwen2-1.5B可在智能家居推理;Qwen2-7B可用于个人、小团队等部署推理,个人业务不断发展,就可能购买云服务器部署,小团队业务进一步发展,也完全有可能购买 Qwen 推理服务,最终形成完美的闭环(感觉和Windows XP有那么一点点类似)。

最后:纯属老牛同学个人观点,请慎喷

以上观点纯属老牛同学个人的猜测,若有不合理之处,欢迎留言讨论,若有冒犯之处,请联系老牛同学删除此文,非常感谢!


关注本公众号,我们共同学习交流进步 👇🏻👇🏻👇🏻

微信公众号:老牛同学

开源大模型

本地部署 GLM-4-9B 清华智谱开源大模型方法和对话效果体验

Phi-3 模型手机部署教程(微软发布的可与 GPT-3.5 媲美的小模型)

Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API 调用和 WebUI 对话机器人

玩转 AI,笔记本电脑安装属于自己的 Llama 3 8B 大模型和对话客户端

一文彻底整明白,基于 Ollama 工具的 LLM 大语言模型 Web 可视化对话机器人部署指南

基于 Llama 3 搭建中文版(Llama3-Chinese-Chat)大模型对话聊天机器人

Google 发布了最新的开源大模型 Gemma 2,本地快速部署和体验

ChatTTS 文本转语音模型

ChatTTS 开源文本转语音模型本地部署、API 使用和搭建 WebUI 界面

Stable Diffusion 3 文生图模型

Stable Diffusion 3 文生图“开源英雄”大模型本地部署和使用教程,轻松实现 AI 绘图自由

大模型应用实战

使用 Llama3/Qwen2 等开源大模型,部署团队私有化 Code Copilot 和使用教程

大模型应用研发基础环境配置(Miniconda、Python、Jupyter Lab、Ollama 等)

借助 AI 大模型,三分钟原创一部儿童故事短视频(附完整操作步骤)

高效编写大模型 Prompt 提示词,解锁 AI 无限创意潜能

Python 小游戏

AI 已来,我与 AI 一起用 Python 编写了一个消消乐小游戏

Python 游戏编程:一步步用 Python 打造经典贪吃蛇小游戏


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/738336.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

专利范文查询

地址http://epub.cnipa.gov.cn/Advanced方法无需登录 输入关键字,查询。 可下载范文, 格式:pdf范例 查询网址首页查询结果下载作者:mohistH 出处:https://www.cnblogs.com/pandamohist/ 本文版权归作者和博客园共有,谢绝一切形式的转载,否则将追究法律责任。

代码随想录算法训练营第五十天 | 1143.最长公共子序列 392.判断子序列

1143.最长公共子序列 题目链接 文章讲解 视频讲解dp[i][j]: 表示以text1以i-1为结尾text2以j-1为结尾的最长公共子序列为dp[i][j] 递推公式:如果text1[i-1] == text2[j-1] 那么dp[i][j] = dp[i-1][j-1] + 1;如果不相同的话,那么dp[i][j] = max(dp[i-1][j], dp[i][j-1]);class…

苹果系统U盘/镜像恢复基础安装教程

目前,刻录U盘进行安装是主流选择,这样安装调试好的黑苹果macOS问题最少,也较为稳定。镜像恢复安装的方式,某宝上的远程安装的商家都是这么干的,但是其中很大一部分商家存在一个严重问题:macOS 从10.14 开始全面采用了 APFS 文件系统,但是当时的恢复软件无法支持这个文件…

markdown,学习第一天

markdown学习 标题 三级标题 字体 hello world! hello world! hello world! hello world! hello world! 引用,前面加>狂神牛逼分割线,加“---”,加“***”图片:超链接:英文字符下,这里描述链接 [点击到我自己的博客园](屮艸芔茻13 - 博客园 (cnblogs.com)) 列表,1.加空格…

vue项目中使用AES实现密码加密解密ECB和CBC模式)

ECB: 是一种基础的加密方式,密文被分割成分组长度相等的块(不足补齐),然后单独一个个加密,一个个输出组成密文。CBC: 是一种循环模式,前一个分组的密文和当前分组的明文异或或操作后再加密,这样做的目的是增强破解难度。(不容易主动攻击,安全性好于ECB,是SSL、IPSe…

VMware开启CentOS Stream 9操作系统提示 “此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态”的解决方案

解决步骤: 1.重启电脑 2.华硕主板按(F2或DEL)键进入BIOS 3.进入高级->CPU设置4.下拉,Inter Virtualization Technology 开启5.退出->保存改动 参考网址: https://blog.csdn.net/web22050702/article/details/138712829本文来自博客园,作者:阿慢2010,转载请注明原…

基于centos8使用seafile搭建家用nas

本文详细总结了在CentOS 8下使用Seafile搭建家用NAS的全过程,涵盖了虚拟机的建立、MariaDB和Seafile的安装、防火墙端口配置、数据盘RAID1的创建、Seafile数据目录的迁移、用户管理、开机自启动设置以及静态IP地址的配置等内容,旨在为初学者提供一个完整的指南。目录 前言:1…

在Ubantu22.04中运行ORB_SLAM3并进行源码解析

在Ubantu22.04中运行ORB_SLAM3并进行源码解析 1.ORB_slam3简介 ORB-SLAM3 是一款前沿的即时定位与建图(SLAM)系统,专为大规模环境下的实时定位与三维重建设计。系统兼容多种视觉传感器配置,包括单目、立体双目以及RGB-D相机。ORB-SLAM3 采用 Oriented FAST 和 Rotated BRIE…

Joplin主题样式及markdown渲染样式更改

本文详细介绍了如何在Joplin笔记软件中更改主题样式和Markdown渲染样式,提供了具体的操作步骤和代码示例,帮助用户自定义Joplin的外观,使其更加美观和符合个人喜好。前言 Joplin是一款极佳的笔记软件,拥有开源、免费、可自定义程度高等多种优点,但其默认的软件主题和Markd…

模拟集成电路设计系列博客——9.2 电平转换器

模拟集成电路设计 9.2 电平转换器 电平转换器是集成电路设计中的一个重要部分,常用于芯片多电压域低功耗设计和I/O中。我们知道在集成电路中,I/O电压与Core电压常常处于两个不同的电压域,因此我们需要使用电平转换器(level shifter)来将I/O电压降低到Core电压,或者将Core…

泛语言计划 第二弹 函数

开始之前,我们先复习一下数学中是怎么定义函数的。 数集A和B,如果A所有数在B中都存在且只有一个数与之对应,则称B是A的函数 由此,我们可以看出一个关键词:对应。 编程中的函数也一样,只是编程中不一定是数,也可以是布尔值、字符串,甚至操作。 这个A集,我们叫他参数,B…

Kubernetes云原生存储解决方案openebs部署实践-4.0.1版本(helm部署)

Kubernetes云原生存储解决方案openebs部署实践-4.0.1版本(helm部署) 简介 OpenEBS 是一种开源云原生存储解决方案。OpenEBS 可以将 Kubernetes 工作节点可用的任何存储转化为本地或复制的 Kubernetes 持久卷。OpenEBS 帮助应用和平台团队轻松地部署需要快速、持久耐用、可靠且…

想要流程化办公,不妨了解拖拽式报表设计器!

看看拖拽式报表设计器是如何为客户降低成本、提高效率,携手进入产业分工新时代。当前,经济发展越来越快,经济水平提升的同时也给职场人提成了更高的要求。很多领域的客户都希望能实现降本、提质、增效,进入流程化办公新时代,可以先来了解低代码技术平台、拖拽式报表设计器…

代码随想录算法训练营第四十九天 | 300.最长递增子序列 674.最长连续递增序列 718.最长重复子数组

300.最长递增子序列 题目链接 文章讲解 视频讲解动规五部曲:dp[i]: 表示考虑元素i的最长子序列为dp[i] 递推公式:dp[i] = max(dp[j] + 1, dp[i]); 初始化:dp[i] = 1; 每个元素单独算一个子序列长度为1 遍历顺序:从前向后遍历 打印dp数组class Solution { public:int length…

基于LEACH路由协议的网络性能matlab仿真,包括数据量,能耗,存活节点

1.程序功能描述LEACH的原理在于它将传感器节点分为两类:簇头节点和普通节点。普通节点将数据发送给距离自己最近的簇头节点,然后簇头节点将收集到的数据融合后发送给基站。这种机制可以减少网络中节点的能耗,并且能够提高数据融合比例,减少传输数据量。本课题将分别对比lea…

高二的他已通过NOI保送北大了,让我们一起了解他的信息学奥赛学习经历吧!!!

相信关注本号的各位,对于信息学奥赛已经不陌生了,部分同学也已经开始踏入信息学的旅程,但前路茫茫,让我相信关注本号的各位,对于信息学奥赛已经不陌生了,部分同学也已经开始踏入信息学的旅程,但前路茫茫,让我们一起看看已经取得成就的同学的经历吧。今天要介绍的这位同…

VPS折腾记七搭建稍后阅读应用

1.简介 看微信公众号的时候,文章太长,可以收藏起来,但是等到晚上看的时候,发现作者已经删除了,很遗憾。wallabag能够收藏文章并且保存到服务器,让我们可以稍后阅读,而且也不怕文章丢失。 wallabag is a self hostable application for saving web pages: Save and class…

基于PSO粒子群优化的CNN-LSTM的时间序列回归预测matlab仿真

1.算法运行效果图预览 2.算法运行软件版本 matlab2022a3.部分核心程序for i=1:Iterifor j=1:Npeoprng(i+j)if func_obj(x1(j,:))<pbest1(j)p1(j,:) = x1(j,:);%变量pbest1(j) = func_obj(x1(j,:));endif pbest1(j)<gbest1g1 = p1(j,:);%变量gbest1 = pbest1(j);end…

关于领域驱动设计,大家都理解错了

翻遍整个互联网,我发现,关于领域驱动设计,大家都**理解错了**。 今天,我们尝试通过一篇文章的篇幅,给大家展示一个完全不同的视角,把“领域驱动设计”这六个字解释清楚。 ## 领域驱动设计学习资料现状领域驱动设计的概念提出已经有20年的时间了,整个互联网充斥着大量书籍…

7.4日BootlLoad总结

最近在研究单片机远程升级方法,看了网上许多资料后了解到,远程升级就是用IAP方法去烧写flash区,而IAP方法在EEPROM中有用到,也就是所说的掉电记忆,掉电不丢失的情况,而相较于51单片机,网上的资料大多是有关STM32单片机的,且使用操作系统,适合于芯片内存较大的芯片,分…