网传Llama 3比肩GPT-4?别闹了

相信大家近期都被Llama 3刷屏了。Llama 3的预训练数据达到了15万亿,是Llama 2的7倍;微调数据用了100万条人工标注数据,是Llama 2的10倍。

足以看出Meta训练Llama 3 是下了大血本的。开源社区拥抱Llama3也是空前热烈,发布才4天Hugging Face上已经出现了1000多个Llama 3的变体,现在也就不到一周,数字已经飙升到了3600多个了。

与此同时,网络上的声音也多了起来:

有讽刺说国内马上遍地自研GPT-4的; 有被Llama 3 一秒800 tokens的生成速度惊到的;

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

但还有一大波人在狂吹Llama 3达到了GPT-4级别。最近刷到的这类文章数不胜数,知乎上随手一搜:

Llama 3的发布,虽然意义非凡。但是近期相当多的大小媒体在未经评测的情况下就开始“造神“了。

不可否认的是Llama 3 70B确实是开源线的里程碑,表现惊艳。但笔者用了一段时间后,对其比肩GPT-4这个结论存疑。

就在几天前,笔者终于等来了清华大学SuperBench团队的新一轮全球大模型评测结果。而且SuperBench团队不负众望,在这次评测中加测了Llama 3-8b 和Llama 3-70b两个模型,率先发布了 Llama 3的最全的评测成绩。

SuperBench是由清华大学牵头发布的大模型综合能力评测平台,集齐了语义、对齐、代码、安全和智能体5大评测基准,相比国外主流榜单,SuperBench以中文能力评价为主,对国人的现实参考意义可能比国外学术界的主流榜单都要大。

我们来一起看下这一轮的测评结果:

1.大模型语义理解能力

2.大模型智能体能力

3.大模型代码能力

4.大模型人类对齐能力

5.大模型安全与价值观表现

在语义理解能力评测中,Claude-3第一, GLM-4和文心一言4.0分别位列第二名、第三名,超过了GPT-4,Llama 3-70B位列第六名。

代码能力测评中,依旧是GPT-4最厉害,然后是Claude 3 、GLM-4、文心一言4.0,Llama 3-70B的表现相对这些国内外的主流闭源还是弱一些。

不过在智能体评测中,Llama 3-70B跻身第五名,也是5项评测中成绩最好的,仅此于GPT-4、Claude 3 和国产大模型GLM-4。

从以上数据可以看到,开源的Llama 3 70B模型还是谈不上比肩GPT-4和 Claude 3的。

当然,Llama 3 400B的版本我们还没见到,400B的版本能不能真的比肩GPT-4,得等放出来再说了。

在看Llama 3评测结果的时候,笔者倒是无意间发现了一个信息:

智谱AI 的GLM-4和百度的文心一言4.0在5项评测中,基本一直在前5名,Llama-3-70b在五项评测中超过了大多数国内模型,只落败GLM-4和文心一言4.0。来自智谱AI的GLM-4和来自百度的文心一言4.0经常出现在榜单前列。

其中,智谱GLM-4甚至在各项评测中均超越了Llama 3,各个评测维度表现亮眼。

要知道,一年前的国产大模型还在追赶GPT3.5,如今真要说哪个模型“比肩”或“接近”GPT-4的话,吹GLM-4和文心一言4.0可比吹Llama 3靠谱多了。

笔者也是一个狂热+资深的大模型测评爱好者,自身的使用体验与SuperBench的评测结论还是有高度一致的。

这里借机讲一讲智谱GLM-4。

对笔者来说,GLM-4确实是真正用下来为数不多的靠谱国产大模型之一,从实际使用体验上,说其数一数二还是非常扎实的。这个现象其实跟这个公司的基因有很大关系。

智谱AI成立于2019年,是清华大学计算机系知识工程实验室的技术成果转化而来的创业公司,也是国内最早研究大模型底层技术的明星科研团队之一。一言以蔽之,学术&技术基因非常深厚。尽管如今智谱AI已经成为一家商业公司,但其在学术研究上的投入和贡献依旧不容小视。

近期一篇让笔者印象深刻的论文就是智谱团队发表的——“Understanding Emergent Abilities of Language Models from the Loss Perspective“。

这篇论文得出了一个非常刷新认知的结论——以OpenAI为主导的“Scaling Law引发大模型能力涌现”的结论可能是错的。

本文通过严谨的实验发现,大模型的能力涌现与模型大小没有直接关系,损失函数loss 才是涌现的关键——也就是说即使是小模型,只要loss收敛小到一定值,也能达到同样的性能。

要知道,不管是Open AI的GPT迭代路线还是谷歌、Meta其他大厂模型的发展态势,模型一直是朝着参数越来越大、效果也越来也好的路子上走的。

笔者仔细研究了下论文,总结下来,作者们分析了不同size的模型在12个不同数据集上对比不同loss下的模型性能表现,12个数据集包含了不同类型的英文和中文任务。

三个颜色区分不同规模,横坐标是loss值,纵坐标是performance,可以看到橙色的6B模型和绿色的32B模型在同一个loss附近是是区分不开的,也就是不同大小的模型在相同的loss附近达到了差不多的性能。

基于Llama 2的7B、13B、33B、65B四种规模的模型相邻的point也是重叠的,也是相似的表现。

这个实验观测还是非常有意思的。相信会有更多的研究者沿着这篇论文的结论去设计更多的实验去challenge这个“在学术界几乎已成共识但从未被理论证实过”的结论,这也可能改写未来AGI的发展路线。

除了在大模型基础理论上有研究创新之外,智谱AI在多模态领域也是没停下来,联合清华先后推出CogView文本-图像生成模型和CogVideo文本-视频生成模型 最新的视觉语言基础模型 CogVLM更是在14个多模态榜单上实现SOTA,变身14边形战士。

想起来前段时间,OpenAI CEO在前段时间的采访中提到“持续创新是最难的,它可以指导产品迭代的方向和公司决策”。而智谱AI这一系列的学术创新和快速的模型迭代、产品发布,让笔者常常在智谱AI身上看到OpenAI的影子——一群深信AGI的技术狂热信徒真正践行着用技术去改变世界的伟大梦想。

说智谱AI是国内大模型技术No.1的创业团队,毫不夸张。

笔者也时常留意智谱AI的商业化进展。智谱AI在商业化上从ToB出发,是国内率先将大模型的变革在企业中落地生花的大模型厂商之一,有效拉动了传统行业的智能化转型,目前已经有超过 2000 家生态合作伙伴,1000 家规模化应用和200 家深度共创客户,广泛覆盖了咨询服务业、传媒行业、食品行业等等,其中不乏德勤中国、分众传媒、华泰证券、马蜂窝、蒙牛、上汽汽车等传统行业龙头企业。

而智谱AI在ToC上,也是有口皆碑。在夕小瑶科技说的数百个社群里,时不时就会发生“哪家国产模型最好用”的口水战,笔者细心的发现几乎每次都会有人站出来力挺智谱AI。

而笔者尤其喜欢使用智谱清言的AI搜索功能:

我们编辑部的小伙伴也经常使用智谱清言来辅助新媒体运营,数据分析甚至生成一些图片素材。可以说是编辑部秘藏AI神器之一了。

尽管Llama 3 为代表的开源力量是否能击败闭源派系的话题在近期出现了不少争议,但作为一名普通用户,可以值得肯定的是,以智谱AI为代表的国产力量已经与国外先进的闭源商业巨头差距大大减小。这个追赶速度,甚至已经超越了开源社区追赶闭源巨头的速度。

正因为国产厂商终年如一日的持续发力,才会有如今的变化。这件事情同样值得我们去关注和肯定。

总之,2024年:

比起开源闭源之争,国产厂商的逆势突围大戏同样令人期待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/650882.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kafka 消费者应用解析

目录 1、Kafka 消费方式 2、Kafka 消费者工作流程 2.1、消费者工作流程 2.2、消费组者说明 1、消费者组 2、消费者组初始化流程 3、消费者 API 3.1、独立消费者-订阅主题 3.2、独立消费者-订阅分区 3.3、消费组 4、分区的分配策略以及再平衡 4.1、Range 策略 1、R…

win11 修改hosts提示无权限

win11下hosts的文件路径 C:\Windows\System32\drivers\etc>hosts修改文件后提示无权限。 我做了好几个尝试,都没个啥用~比如:右键 管理员身份运行,在其他版本的windows上可行,但是win11不行,我用的是微软账号登录的…

为什么单片机控制电机需要加电机驱动

通常很多地方只是单纯的单片机MCU没有对电机的驱动能力,或者是介绍关于电机驱动的作用,如: 提高电机的效率和精度。驱动器采用先进的电子技术和控制算法,能够精准控制电机的参数和运行状态,提高了电机的效率和精度。拓…

《第二行代码》第二版学习笔记(6)——内容提供器

文章目录 一 运行时权限2.权限分类3 运行时申请权限 二、内容提供器1、 ContentResolver的基本用法2、现有的内容提供器3、创建自己的内容提供器2.1 创建内容提供器的步骤2.2 跨程序数据共享 内容提供器(Content Provider)主要用于在不同的应用程序之间实…

普通人与AIGC的日常

AIGC时代之前 当ChatGPT3还没有推出来之前,可以肯定的是绝大多数的人没有接触过生成式AI,也不知道什么是生成式AI,更别说生成式AI能为我们做些什么了。 以前上网找资料,一般都是通过搜索引擎,比如国内的百度&#xf…

material3 中底部弹窗ModalBottomSheet

material3 中底部弹窗ModalBottomSheet 相关源码错误示范正确操作 由于ModalBottomSheetLayout在material3中被抛弃&#xff0c;所以采用ModalBottomSheet 相关源码 /*** <a href"https://m3.material.io/components/bottom-sheets/overview" class"extern…

2024中国航空航天暨无人机展诚邀全国相关商协会组团参展

2024中国航空航天暨无人机展诚邀全国相关商协会组团参展 2024中国航空航天暨无人机展览会诚邀全国各关联商会、协会&#xff0c;联盟、各专业会展公司、各级城市政府及关联产业园区、各关联网站报纸杂志及平台等组团参展 主办单位&#xff1a; 中国航空学会 重庆市南岸区人民…

JTAG访问xilinx FPGA的IDCODE

之前调试过xilinx的XVC&#xff08;Xilinx virtual cable&#xff09;&#xff0c;突然看到有人搞wifi-JTAG&#xff08;感兴趣可以参考https://github.com/kholia/xvc-esp8266&#xff09;&#xff0c;也挺有趣的。就突然想了解一下JTAG是如何运作的&#xff0c;例如器件识别&…

python怎么输出倒序

python怎么输出倒序&#xff1f;下面给大家介绍四种方法&#xff1a; 创建测试列表 >>> lst [1,2,3,4,5,6]方法1&#xff1a; >>> lst.reverse() #reverse()反转 >>> lst [6, 5, 4, 3, 2, 1] 方法2&#xff1a; >>> lst1 [i for i in …

网贷大数据黑名单要多久才能变正常?

网贷大数据黑名单是指个人在网贷平台申请贷款时&#xff0c;因为信用记录较差而被列入黑名单&#xff0c;无法获得贷款或者贷款额度受到限制的情况。网贷大数据黑名单的具体时间因个人信用状况、所属平台政策以及银行审核标准不同而异&#xff0c;一般来说&#xff0c;需要一定…

一站式服务:教你搭建AI知识库

在信息化高速发展的今天&#xff0c;知识管理已成为企业提升竞争力的重要因素。而AI知识库&#xff0c;作为知识管理的高级形态&#xff0c;被很多企业选择。那么&#xff0c;如何打造一款高效、智能的AI知识库呢&#xff1f;本文的一站式服务将为您一一解答。 一、明确需求与目…

C语言——贪吃蛇游戏的实现

目录 一. 贪吃蛇的介绍 二. Win32 API 1. 控制台程序 2. COORD 控制台屏幕上的坐标 3. GetStdHandle 4. GetConsoleCursorInfo CONSOLE_CURSOR_INFO 5. SetConsoleCursorInfo 6. SetConsoleCursorPosition 封装的SetPos函数 7. GetAsyncKeyState 宏定义KEY_PRESS 三…