Scaling Law 又一次性感了吗?

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


事件:

Sora 的出现被认为是 Scaling Law 的又一次成功,这也引起了社区中更多对 Scaling Law 的讨论。

自 OpenAI 发布 Sora,业界对该模型的能力及其所带来的影响和机会讨论不断。虽然 OpenAI 没有放出 Sora 的训练细节,但在其技术报告中又一次强调该公司所拥护的核心理念——Scaling Law。即,支持 Sora 的 Diffusion Transformer 模型同样符合 Scale effectively),随着训练计算量增加,视频质量显著提升。这让 Scaling Law 再次成为人工智能领域的热点话题。

Scaling Law 是什么?

1、针对语言模型的 Scaling Law 来自 OpenAI 2020 年发布的论文,其释义可简要总结为:随着「模型大小」、「数据集大小」、「(用于训练的)计算浮点数」的增加,模型的性能会提高。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系。

① 模型性能受三个因素共同影响,其中计算量对性能的提升最为显著,其次是模型参数,而数据集大小的影响相对较小。在资源不受限制的情况下,性能提升最为显著。

② 在有限的计算资源下,为了获得最佳性能,可以通过训练大型模型并在其达到最佳状态前提前终止训练。

③ 大型模型在样本效率上更优,它们可以用较少的数据和优化步骤达到与小型模型相同的性能。在实践中,应优先考虑训练大型模型。

2、Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势,这对于在有限预算下做出关键设计选择,如确定模型和数据的理想规模,避免昂贵的试错过程,具有重要意义。

① 在大语言模型的训练中,交叉熵损失是评估模型预测准确性的常用指标,它衡量模型输出与实际情况的差距。损失越低,预测越精确,训练目标就是降低这一损失。

3、作为另一个代表性研究,Google DeepMind 团队的 Hoffmann 等人同样提出了一种用于指导 LLMs 计算最优训练的替代 Scaling Law 形式。

① 在有限的浮点运算(FLOP)预算下,损失函数显示出最佳性能点:对于较小的模型,增加数据量以训练较大的模型能提升性能;对于较大的模型,使用更多数据训练较小的模型同样能带来改进。

② 为了实现计算成本的最优,模型的规模和训练数据量(token 数)应保持成比例的增长,即模型规模翻倍时,训练数据量也应相应翻倍。

③ 在训练大型语言模型时,应重视数据集的扩充,但只有在数据质量高的情况下,扩大数据集的优势才能得到充分发挥。

4、总体而言,给定计算预算的增加,OpenAI 的 Scaling Law 更倾向于在模型大小上分配更大的预算,而 Chinchilla 版则认为两个大小应该等比例增加。

Scaling Law 带来的争议有哪些?

围绕 Scaling Law 的讨论中,「模型是否越大越好?」的问题在近几年反复被提及,各方观点莫衷一是。科技博主 Dwarkesh Patel 曾撰文梳理了社区中围绕 Scaling Law 的争议与讨论的关键问题,并对支持或质疑的声音进行了解读分析。

1、现有数据会被用光吗?

① 积极观点认为,到 2024 年,高质量的语言数据将会用尽。根据 Scaling Law,我们需要的数据量比现有的多出 5 个数量级,这意味着现有数据可能只有真正需要的 10 万分之一。尽管可以通过提高数据利用效率的方法,如多模态训练、循环利用数据集、课程学习等,但这些方法难以满足 Scaling Law 指数式增长的数据需求。

② 消极观点认为,不应该因为数据短缺质疑 Scaling Law 的可行性。LLM 在处理数据时效率不高,但如果合成数据有效,我们不应该对继续 Scaling 持怀疑态度。有研究者对 self-play 和合成数据的方法持乐观态度,认为这些方法可能有效,并且有丰富的数据来源和生成数据的方法。

2、Scaling Law 真的起过作用吗?

① 积极观点认为,在各种基准测试中,模型的性能已经稳步提升了 8 个数量级,即使在计算资源增加的情况下,模型性能的损失仍然可以精确到小数点后多位。GPT-4 的技术报告表明,可以通过较小的模型预测最终模型的性能,这表明 Scaling Law 的趋势可能会持续。

② 消极观点则质疑 Scaling Law 是否能说明模型的泛化能力有实质提升。有声音指出现有的基准测试更多地测试模型的记忆力而非智能程度,并且模型在长期任务上的表现并不出色。例如,GPT-4 在 SWE-bench 测试中的得分很低,表明模型在处理长时间跨度的复杂信息时存在问题。

3、模型真的能理解世界吗?

① 有研究表明,学习大量代码能够增强 LLM 的语言推理能力,显示出模型能够识别并利用语言和代码中的通用逻辑结构。梯度下降作为一种优化策略,旨在通过数据压缩来深入理解信息,从而提高模型的预测能力。

② 积极观点认为为了预测下一个 Token,LLM 必须学习万物背后的规律,理解 Token 之间的联系。例如,通过学习代码可以提高 LLM 的语言推理能力,这表明模型能够从数据中提炼出通用的思考模式。

③ 消极观点认为,智能不仅仅是数据压缩,即使 LLM 通过 SGD 过程实现了数据压缩,这并不能证明它们具备与人类相似的智能水平。

④ 还有一种观点认为,大模型存在方向上的路线错误......

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/598346.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】函数递归编程题

目录 题目一: 题目二: 题目三: 题目四: 总结 题目一: 题目:接受一个整型值(无符号),按照顺序打印它的每一位。(递归完成) 列如: …

uniapp:聊天消息列表(好友列表+私人单聊)支持App、H5、小程序

🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! 目录 ⭐ 文章简介(效果图展示&#xff…

linux安全加固

1.登录账号加固 /etc/login.defs 创建⽤户的默认设置⽂件 grep -Ev "^#|^$" /etc/login.defs /etc/login.defs ⽂件⽤于在创建⽤户时,对⽤户的⼀些基本属性做默认设置,例如指定⽤户 UID 和 GID 的范围,⽤户的过期时间&#xff0…

豆瓣9.7,这部Java神作第3版重磅上市!

Java 程序员们开年就有重磅好消息,《Effective Java 中文版(原书第 3 版)》要上市啦! 该书的第1版出版于 2001 年,当时就在业界流传开来,受到广泛赞誉。时至今日,已热销近20年,本书…

如何搭建APP分发平台分发平台搭建教程

搭建一个APP分发平台可以帮助开发者更好地分发和管理他们的应用程序。下面是一个简要的教程,介绍如何搭建一个APP分发平台。 1.确定需求和功能:首先,确定你的APP分发平台的需求和功能。考虑以下几个方面: 用户注册和登录&#xff…

【图论】有向无环图中一个节点的所有祖先 - 邻接表(DFS)

文章目录 题目:有向无环图中一个节点的所有祖先题目描述代码与解题思路 题目:有向无环图中一个节点的所有祖先 2192. 有向无环图中一个节点的所有祖先 题目描述 代码与解题思路 func getAncestors(n int, edges [][]int) [][]int {g : make([][]int, …

题目:【序列中删除指定数字】【变种水仙花数】【数组串联】【交换奇偶位】【offsetof宏的实现】

题目一:序列中删除指定数字 #include <stdio.h>int main(){int a0;int arr[50]{0};int c0;scanf("%d",&a);for(int i0;i<a;i){scanf("%d",&arr[i]);//输入a个值}scanf("%d",&c);//输入要删除的数据int i0;int j0;for(i0;i&…

【Entity Framework】EF配置文件设置详解

【Entity Framework】EF配置文件设置详解 文章目录 【Entity Framework】EF配置文件设置详解一、概述二、实体框架配置部分三、连接字符串四、EF数据库提供程序五、EF侦听器六、将数据库操作记录到文件中七、Code First默认连接工厂八、数据库初始值设定项 一、概述 EF实体框架…

力扣热题100_链表_138_随机链表的复制

文章目录 题目链接解题思路解题代码 题目链接 138. 随机链表的复制 给你一个长度为 n 的链表&#xff0c;每个节点包含一个额外增加的随机指针 random &#xff0c;该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成&a…

《追风者》中爷叔必读的三大创业金句!2024最受欢迎的创业项目,2024新兴创业项目

作为爱奇艺2024首部破万的长剧《追风者》&#xff0c;正是因为其中蕴含了无数的人生哲理&#xff0c;处世之道可以供观众细细品味。尤其是其中爷叔的创业金句&#xff0c;更是给了每个初次创业的受挫者鼓励和指引。 1、不输&#xff0c;就是赢了。不比谁赚得多&#xff0c;不比…

元宇宙虚拟空间的角色初始化(六)

前言 该文章主要讲元宇宙虚拟空间的角色初始化&#xff0c;基本核心技术点&#xff0c;不多说&#xff0c;直接引入正题。 角色初始化 在调用渲染前&#xff0c;打印一下更新的列表 console.log(this.updatables); this.render(this);; 这里看到有很多要更新的 这…

java流式计算Stream

java流式计算Stream 流(Stream)到底是什么呢? 是数据渠道&#xff0c;用于操作数据源&#xff08;集合、数组等&#xff09;所生成的元素序列。 “集合讲的是数据&#xff0c;流讲的是计算! ” 特点&#xff1a; Stream自己不会存储元素。 Stream不会改变源对象。相反&#x…