百川智能发布首个530亿参数闭源大模型,今年追上GPT-3.5

4月官宣创业,6月15日发布第一款7B开源模型,7月11日发布第二款13B、130亿参数开源模型。

平均保持2个月一个版本发布速度,8月8日,百川智能发布了创业以来的首个530亿参数闭源大模型——Baichuan-53B(以下简称“53B”)。

光锥智能获悉,53B支持中英双语,在知识性上表现优异,譬如能给孩子取名字和解读其背后的寓意,擅长知识问答、文本创作等领域,相对此前两款模型有了更好的表现。

目前53B已在官网开放内测申请,并将在下个月开放API。

按照计划,今年四季度,百川智能将发布千亿参数的大模型,预计将追上GPT-3.5的水平,其开源模型也将在今年内发布升级版本。

百川智能已经发布的开源大模型在各个榜单收获了不错的评分,并且能被企业真正用起来,据百川智能统计,已经有150家以上的公司申请使用他们的开源模型。

谈起这回发布闭源大模型的原因,王小川表示因为模型变大后,部署起来成本比较高,所以才更多走闭源让大家网上调用的方式。

王小川认为闭源可以提供更简单的接口,做调用后指令的精准度方面会更好,也能解决一些更复杂的问题。

“开源和闭源并不矛盾,不管是 7B 还是 13B,还是 53B,都是为ToB行业服务做准备。我们更关心的是2C怎么做,2B怎么做,而不是把问题停留在开源闭源里面。”王小川道。

此次发布的53B可谓是集大成之作,百川智能强调53B的三个技术优势分别为预训练数据、搜索增强和对齐能力,其中前两者与百川团队中丰富的搜索引擎经验有较强相关性。

预训练数据方面,王小川表示,此前团队做搜索引擎的经验,让百川智能能够又快又好地完成前期数据积累,这也是百川智能此前两款开源模型能够迅速推出的原因之一。

百川智能联合创始人、大语言模型技术负责人陈炜鹏表示:“团队背景做了很多年的搜索,所以整个中文互联网里哪里有好的数据,我们团队是最清楚的,同时怎么把这些数据收集回来,质量做好,识别出来,我们以前有也很强的积累和方法论。”

预训练数据是大语言模型信息和知识的来源,丰富多样、高质量、有层次的数据对模型的最终效果起到关键作用。其中,数据质量是预训练模型的关键。为此,百川智能已经建立了一套系统的数据质量体系,包括低质、优质、类别等,这一体系将确保其在整个预训练过程中维持高标准的数据质量,确保数据能为最终模型训练的目标服务。

百川智能表示,未来的目标是构建一个全面的世界知识体系,使其能够覆盖各个领域和学科的知识。通过整合各类信息源,确保在文化、科学、技术等方面有广泛的知识涵盖,打造一个不断学习、扩展和更新的知识库,确保所有信息的准确性和时效性,以满足不同用户的多样化需求。

王小川认为,过去20年搜索技术的积累是百川在大模型领域的优势。

在具体技术实现路径上,百川智能的搜索增强系统融合了多个模块,包括指令意图理解、智能搜索和结果增强等关键组件。这一综合体系通过深入理解用户指令,精确驱动查询词的搜索,并结合大语言模型技术来优化模型结果生成的可靠性。通过这一系列协同作用,实现了更精确、更智能的模型结果回答,减少了模型的幻觉。


“搜索增强是非常重要的事情,通过它可以使得知识面更加扩大,幻觉问题、时效性的问题也能得到更好的弥补,因此以后搜索引擎会成为我们的亮点和特色,要把搜索的模型完美融合成一件事情。”王小川道。

除了预训练,大模型还需要通过对齐调整(Alignment Tuning)让模型同人类价值观对齐,从而生成“更令人满意”的回复内容。

为了提升安全性和帮助性效果,53B采用了多RM融合,这是一种全面的策略,它着眼于不同目标间的相互支持和平衡,确保在实现一个目标的同时,不会牺牲其他重要目标。这意味着,即使用户同时有多项复杂需求时,模型也不会忽略安全等最基本诉求。

王小川认为大模型的事业才刚刚到了爬坡阶段,对于模型而言,有三点很重要:一是大模型本身的能力,尤其指的是预训练的能力;二是搜索的能力;三是强化的能力,三者共同推动大模型的进步。

展望大模型发展的未来,王小川认为既能做500亿参数,也要有自身差异化,才是百川智能接下来要走的路。

“要做到中国最好的对标GPT模型,预训练模型的追求没法停下来,未来还会继续去做更大的模型。但这也同时意味着,百川智能对于搜索和强化技术也会有自己的高度。”王小川道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/63265.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业产品手册5大核心功能,附产品手册在线制作工具Baklib

企业产品手册的5大核心功能 企业产品手册是企业向用户传达产品信息、功能和使用方法的重要工具。下面将介绍企业产品手册的五个核心功能。 1. 产品介绍和特点展示 产品手册的首要功能是介绍和展示企业的产品。它应该提供清晰、详细的产品信息,包括产品的特点、优势…

5G用户逼近7亿,5G发展迈入下半场!

尽管普遍认为5G投资高峰期正在过去,但是从2023年上半年的情况来看,我国5G建设仍在衔枚疾走。 近日举行2023年上半年工业和信息化发展情况新闻发布会上,工信部人士透露,截至今年6月底,我国5G基站累计达到293.7万个&…

InVEST模型使用

第一天: 1. 生态系统服务理论联系实践案例讲解 2. InVEST模型的开发历程、不同版本的差异及对数据需求的讲解 3. InVEST所需数据的要求(分辨率、格式、投影系统等)、获取及标准化预处理讲解 4. InVEST运行常见问题及处理解决方法讲解 5.…

新疆大学841软件工程考研

1.软件生产的发展经历了三个阶段,分别是____、程序系统时代和软件工程时代时代。 2.可行性研究从以下三个方面研究每种解决方法的可行性:经济可行性、社会可行性和_____。 3.HIPO图的H图用于描述软件的层次关系&…

uniapp 小兔鲜儿 - 首页模块(1)

目录 自定义导航栏 静态结构 安全区域​ 通用轮播组件 静态结构 自动导入全局组件 全局组件类型声明 .d.ts文件 注册组件 vue/runtime-core 首页 – 轮播图指示点 首页 – 获取轮播图数据 首页 – 轮播图数据类型并渲染 首页 – 轮播图总结 首页分类 首页 – 前…

五金仓库的管理数字化

随着信息技术的快速发展,数字化管理在各行各业中迅速普及。数字化管理可以让企业轻松高效地收集、存储和共享数据,并利用大数据分析和人工智能等工具进行精确分析和预测,从而更好地理解业务运作情况并做出相应调整,以提高企业效率…

AWS中lambda与DynamoDB的集成

前言:我在整个集成过程中,存在最大的问题有两个, 1. 没有考虑到lambda函数的权限,即对DynamoDB或者其他如Kinesis的权限授权,导致无法写入或者读取。 2.最初使用了异步方式调用,导致无法写数据到DynamoDB…

List list=new ArrayList()抛出的ArrayIndexOutOfBoundsException异常

1.应用场景,今天生产日志监控到一组new ArrayList() 进行add 异常,具体日志如下: eptionHandler.handler(178): TXXYBUSSINESS|执行异常 java.util.concurrent.CompletionException: java.lang.ArrayIndexOutOfBoundsException: Index 1 out…

Java进阶(1)——JVM的内存分配 反射Class类的类对象 创建对象的几种方式 类加载(何时进入内存JVM) 注解 反射+注解的案例

目录 引出java内存分配java内存分布概略图堆方法区常量池 创建对象内存分配 反射class文件的底层类加载顺序1.检查2.开辟静态资源空间3.常量池4.其他...5.创建一个唯一的类的对象获取Class对象的几种方式 创建对象几种方式new 看到new : new Book()反射 Class.forName(“包名.类…

代数学与理论物理中常见的群

代数学与理论物理中常见的群 代数学与理论物理中常见的群 四阶群 六阶群 对称群 二维转动群 三维转动群 三维正交群 群 O3群

excel将主信息和明细信息整理为多对多(每隔几行空白如何填充)

excel导出的数据是主信息和明细信息形式。 方法如下:1、首先,从第一个单元格开始选中要填充的数据区域。2、按CtrlG或者F5调出定位对话框,点击左下角的【定位条件】。3、在【定位条件】中选择【空值】,然后点击【确定】按钮。4、按照上述操作…

Linux:Shell编辑之文本处理器(sed)

目录 绪论 1、sed的原理:读取 执行 显示 三个过程 2、sed 文本内容处理工具,文件过大怎么办? 3、sed的操作选项 3.1 常用选项 3.2 操作符 3.3 行号的范围打印 3.4 对包含指定字符串的内容进行打印 3.5 删 3.5.1 正则表达式删除 3.6…