国内大模型在局部能力上已超ChatGPT

9c8e2e2383db4e53817fae0bd986a4b8.jpg中文大模型正在后来居上,也必须后来居上。

 

@数科星球原创

作者丨苑晶

编辑丨大兔

从GPT3.5彻底出圈后,大模型的影响力开始蜚声国际。一段时间内,国内科技公司可谓被ChatGPT按在地上打,毫无还手之力。

彼时,很多企业还不知大模型为何物,GPT3.5就已够生成诸如营销文案、小说、诗歌等高质量的中文文本。一时间,买课小贩、租号中间商和套壳开发者大行其道。

现如今,在国内厂商严肃对待OpenAI后,情况发生了变化。

在公开资料中,就有360、复旦大学、科大讯飞等企业表达了在中文能力上超越ChatGPT的消息。现在,时间进入2023年8月份,号称超越国外竞品的公司变得越来越多。

 

01

 

中文模型进击:ChatGPT“不香”了

 

客观地说,在GPT-3推出后,OpenAI曾经在中文文本输出中占得先机。其一经推出,便可覆盖诸如营销文案、小说和诗歌等领域的文生文需求。几个月前,这种先手优势养活了国内一众卖课达人、租号团队以及套壳聊天机器人产品。

 

不过,很快,这些功能便被国内众多厂商超越,变成了大模型的“标配”功能。

 

根据第三方监测机构SimilarWeb的数据显示,ChatGPT从4月开始就呈现出了明显放缓的趋势。以至于在2023年的第二季度,人们的朋友圈内几乎没有了OpenAI的踪影。在科技圈,这被归结为竞争对手大批量涌入、垂直模型兴起和新技术迭代所导致。

 

8月初,中文大模型的“千模大战”已进入白热化阶段。以数科星球(ID:digital-planet)团队所掌握的信息来看,越来越多的企业开始关注下沉市场、并致力于推进具体行业和大模型产品的结合。

 

这种趋势的结果是,可能会有更多的企业和机构选择使用本土产品,同时也对国外模型的市场份额造成一定影响。在数科星球(ID:digital-planet)团队体验二十余款中文大模型后,所得到的观感和上述言论趋同:即中文大模型正在变得越来越好用,并变得越来越聪明。

 

更为关键的是,政策层面对国内产品的扶植力度正在加强,而出于安全和自主可控等因素,ChatGPT的“没落”(至少在国内)似乎已成板上钉钉。

 

但国内厂商的野心还远不止“内卷”国内市场——一些公司已然将目光瞄准了海外。

 

科大讯飞董事长刘庆峰此前表示,其星火大模型中文已超越ChatGPT,在英文中也已接近,虽还有细微差别,但目前在进一步优化中。

 

02

 

中文大模型变聪明的背后

 

为了探求国内中文大模型的发展情况,在过去的几个月中,数科星球(ID:digital-planet)团队与几十家公司进行了百余次沟通。结果是,科技圈的大佬和创业新星们对待OpenAI的态度严肃且认真。

 

除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化。

 

为了弥补中文大模型在评测领域的缺失,日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出,该评测名为C-Eval,受到了行业内的广泛关注。

 

在一些专业人士看来,此评测的初衷是用“锱铢必较”的方式找出中文大模型的比较优势。和以往由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是,无论在过程和结果上,C-Eval更加透明和公开。

683ed2431f5f4800af5a9eec0f9d093b.png

 

据了解,全套测验包含13948道多项选择题,涵盖52个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat,APUS的AiLMe-100Bv1。

45dd7066ca4441ebb7979964f0dbe044.png

 

对比由微软亚洲研究院(Microsoft Research Asia)开发的基准测试AGIEval,C-Eval覆盖的领域更广。APUS技术专家张旭称:“AGIEval只覆盖了中国高考题、公务员考试题等几个类别,而C-Eval覆盖了注册电气工程师、注册计量师……等领域”,覆盖范围的拓宽意味着,除高考、公务员考试等场景外,在其他特定职业领域也可以测定大模型的能力。

 

 

从另一个角度说,C-Eval是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。通常,高阶难度测试是考验大模型性能的关键动作,面对复杂且有挑战性的任务,大多大模型性能会大幅下降。在C-Eval公布的评比结果中,APUS的AiLMe-100Bv1除了在平均分上进入四强,还在难题处理方面超越GPT-4*,排名第一。

 

 

据悉,C-Eval Hard(难题)类别是首个提供中文复杂推理能力的测试,“即便是GPT-4来做这个题也会很吃力,”张旭提及,“这是‘闭卷考试’,而以往如AGIEval和MMLU是‘开卷考试’,也就是说,AGIEval和MMLU是各公司自己测试、自己打分、自己公布成绩,而C-Eval Hard的评比显然更加客观、可信。”

 

的确,C-Eval测评难度比其他测评更高且更严格。在打分流程上,C-Eval更像是学校中为学生准备的大考模式,各个公司参加统一考试并由系统自动打分、C-Eval团队人工审核成绩并公布,所以,就结果上看,其测评所公布的成绩真实性更高。

 

03

 

国内大模型的未来

 

放眼行业,大模型对于国内人工智能产业的意义非凡。

 

在NLP行业出现范式变革后,Transformer为主导的新一代通用大模型产品大行其道,让人们看到了AGI的曙光。甚至可以说,中国版的ChatGPT3.5/4.0的问世是我国正式迈向人工智能时代的重要标志。

 

在过去,一、二级资本市场对国内大模型产业意见颇多。讨论最多的是,国内公司没有在前沿技术投入太多,反而将精力侧重于“蹭”数字人、AIGC等概念之上。

 

客观地说,上述评价不无道理,其中不乏因大环境不好,企业对前沿投入审慎和相关技术积累薄弱等问题所导致。

 

但近期,随着数科星球(ID:digital-planet)对大模型行业认识的深入,以上问题正在得到改变:首先,以智源研究院、百度文心一言、商汤和APUS等企业的持续投入,我国已有多家企业具备大模型制作和运营能力(此前大多为小模型);其次,随着上半年密集的模型发布大会逐渐落幕,新模型开始迭代积累,并向着ChatGPT能力靠拢。

 

在我们所知的大模型产业上下游企业中,针对数据处理、清洗、标注、模型训练、推理加速等方面的技术也正在加速追赶之中;最后,政策层面已注意到发展大模型和ChatGPT的必要性,开始着手调集更多资源应对,相关生态和创新土壤也正在完备的过程中。

 

可以肯定的是,本次人工智能革命的核心就是通用大模型。目前,我国众多企业正在加速追赶。

 

现在,超越ChatGPT已成为国内AI从业者们心中的图腾。想必若假以时日,这个目标将有机会实现。而到那时,一个属于人工智能时代的大幕才彻底拉开。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/57242.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android应用开发(6)TextView进阶用法

Android应用开发学习笔记——目录索引 上一章Android应用开发(5)文本视图(TextView)介绍了文本视图(TextView)设置文本内容、设置文本大小、设置文本显示颜色。 TextView是最基础的文本显示控件&#xff…

8.7 作业

1.思维导图 2.写一个函数&#xff0c;获取用户的uid和gid并使用变量接收 #!/bin/bash fun() {uid$(id -u)gid$(id -g) }fun echo $uid $gid 3.整理冒泡排序、选择排序和快速排序的代码 冒泡 #include <myhead.h> void fun(int l,int *arr) {for(int i0;i<l-1;i){f…

MySQL: Failed to Connect to MySQL at XXXX:3306 with user root

客户端连接MySQL服务器&#xff0c;报错&#xff1a; 解决方案&#xff1a; 没有让root用户远程登录&#xff0c;需要设置&#xff1b; 进入MySQL服务器&#xff0c;修改一下 # mysql -h localhost -uroot -P3306 -p12345678 mysql: [Warning] Using a password on the comm…

JVM、JRE、JDK三者之间的关系

JVM、JRE和JDK是与Java开发和运行相关的三个重要概念。 再了解三者之前让我们先来了解下java源文件的执行顺序&#xff1a; 使用编辑器或IDE(集成开发环境)编写Java源文件.即demo.java程序必须编译为字节码文件&#xff0c;javac(Java编译器)编译源文件为demo.class文件.类文…

Effective Java笔记(27)消除非受检的警告

用泛型编程时会遇到讲多编译器警告 &#xff1a; 非受检转换警告&#xff08; unchecked cast warning &#xff09;、非受检方法调用警告、非受检参数化可变参数类型警告&#xff08; unchecked parameterized vararg type warning&#xff09;&#xff0c;以及非受检转换警告…

VBA遍历Wrod所有表格每个单元格,单元格未尾两个回车替换

一、遍历 word中遍历所有表格的每个单元格。因为在单元格时会常出错。浪费了不少时间。 Sub a()Dim doc As Document, tb As Table, ce As cellDim rng As Range, p As ParagraphSet doc ActiveDocumentFor Each tb In doc.TablesFor Each ce In tb.Range.Cells 关键处就是这里…

element-ui 表格el-table的列内容溢出省略显示,鼠标移上显示全部和定制样式

1、在对应列加上省略显示show-overflow-tooltip属性&#xff0c;如果加上这属性&#xff0c;鼠标移上还是没效果&#xff0c;要考滤是不是层级的原因&#xff0c;被其他挡住了。 :deep(.el-tooltip){position: relative;z-index:9; } <el-table-column label"用款渠…

hacksudo3 通关详解

环境配置 一开始桥接错网卡了 搞了半天 改回来就行了 信息收集 漏洞发现 扫个目录 大概看了一眼没什么有用的信息 然后对着login.php跑了一下弱口令 sqlmap 都没跑出来 那么利用点应该不在这 考虑到之前有过dirsearch字典太小扫不到东西的经历 换个gobuster扫一下 先看看g…

谈谈量子计算技术

目录 1.什么是量子计算 2.量子计算的应用领域 3.量子计算对现代科学的影响 4.量子计算未来的发展趋势 1.什么是量子计算 量子计算是一种基于量子力学原理的计算方法&#xff0c;利用量子比特&#xff08;Quantum Bit&#xff0c;简称qubit&#xff09;而不是经典计算中的比特…

[虚幻引擎] UE DTBase64 插件说明 使用蓝图对字符串或文件进行Base64加密解密

本插件可以在虚幻引擎中使用蓝图对字符串&#xff0c;字节数组&#xff0c;文件进行Base64的加密和解密。 目录 1. 节点说明 String To Base64 Base64 To String Binary To Base64 Base64 To Binary File To Base64 Base64 To File 2. 案例演示 3. 插件下载 1. 节点说…

情感书单素材库大全,好的文案试试做成视频吧

当我们沉浸在热爱的小说或故事中时&#xff0c;我们会被情感所吸引&#xff0c;感受到其中所包含的情感&#xff0c;这些情感会在我们的内心深处留下印记。情感书单素材库是一个非常棒的资源&#xff0c;可以帮助我们发现那些让我们心动的故事和情感&#xff0c;从而创作出有意…

MySQL游标(二十九)

二八佳人体似酥&#xff0c;腰悬利剑斩愚夫&#xff0c;虽然不见人头落,暗里教君骨髓枯。 上一章简单介绍了MySQL流程控制(二十八) ,如果没有看过,请观看上一章 一. 游标 一.一 什么是游标 虽然我们也可以通过筛选条件 WHERE 和 HAVING&#xff0c;或者是限定返回记录的关键…