LLM:Scaling Laws for Neural Language Models (中)

核心结论

1:LLM模型的性能主要与计算量C,模型参数量N和数据大小D三者相关,而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足:  C ≈ 6ND

2. 为了提升模型性能,模型参数量N和数据大小D需要同步放大,但模型和数据分别放大的比例还存在争议。(参见下篇文章)

首先看一下核心结论1是怎么推导得到的。

针对transformer结构:Parameters 参数量(不含embedding层)为N,每个Token前向传播消耗运算量C 约为 2N,反向传播的运算量又是前向传播运算量的两倍,所以每个Token需要花费的运算量C 约为 2N + 2*(2N) = 6N。现在Token的数量为D,所以总的运算量为C = 6N*D。

核心公式:本部分来自参考2.

  • 第一项L_{\infty }是指无法通过增加模型规模来减少的损失,可以认为是数据自身的熵(例如数据中的噪音)
  • 第二项(\frac{x_{0}}{x})^{a}是指能通过增加计算量来减少的损失,可以认为是模型拟合的分布与实际分布之间的差。

根据公式,增大x (例如计算量C),模型整体loss下降,模型性能提升;伴随x (例如计算量C) 趋向于无穷大,模型能拟合数据的真实分布,让第二项逼近0,整体趋向于L_{\infty }

结论验证

从图上可以看出:

1:当模型的参数量 N 为10^{3}时(图中紫色的线),在 Token 数量达到 10^{9}后(图中红色的圈),模型基本收敛,继续增加训练的 Token 数量,纵轴的Test Loss 并没有明显下降。

2:如果此时,增加模型的参数量N:10^{3}->10^{9}。 纵轴的Test Loss:从6.x->3.x。可以看出:提升模型参数量带来的收益更大。

思考一个问题:基于上图,当模型的参数量 N 为10^{3}图中紫色的线

(1)模型达到收敛状态时需要消耗的算力C是多少?

(2)模型达到收敛状态时的耗时是多久呢?

先看答案:下图红色箭头指向位置,也就是图中紫色线的拐点。

1:算力消耗: C\approx 6\ast N\ast D\approx 6\ast 10^{3}\ast 10^{9}\approx 6\ast 10^{12}

2:耗时:Compute (PF-days) \approx 7\ast 10^{-8}

如果没做实验,怎么知道上面的答案呢?

根据核心公式1,得到:C\approx 6\ast N\ast D\approx 6\ast 10^{3}\ast 10^{9}\approx 6\ast 10^{12}

Compute(PF-days) = \frac{C}{PF-days}=\frac{6\ast 10^{12}}{8.64\ast 10^{19}}\approx 6.99\ast 10^{-8}=7\ast 10^{-8}

Tips:

PF-days: 如果每秒钟可进行1015次运算,就是1 peta flops,那么一天的运算就是1015×24×3600=8.64×1019,这个算力消耗被称为1个petaflop/s-day。

再看个例子:

下图是Baichuan-2技术报告中的Scaling Law曲线。基于10M到3B的模型在1T数据上训练的性能,可预测出最后7B模型和13B模型在2.6T数据上的性能。

 问题1:在1T的数据上,训练的10M-3B的模型,是怎么推算训练7B/13B需要2.6T数据呢?

C\approx 6\ast N\ast D

D\approx \frac{C}{6\ast N}=\frac{10^{23}}{6\ast 7B}=\frac{10^{23}}{6\ast 7\ast 10^{9}}\approx 2.38T

2.38T 是理论数值,与 2.6T基本一致了。

问题2:7B/13B模型的理论损失是多少呢?

将10M->3B不同尺寸的模型,训练到收敛状态,即上图,将每个模型的loss拐点记录进行拟合,得到幂函数(上图中蓝色粗线-scaling law),将C = 10^{23}带入拟合函数,就可以得到7B/13B模型的理论预期Loss了。

参考

1:介绍一些Scaling Laws - 知乎

2:解析大模型中的Scaling Law - 知乎 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/415181.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

赋能客户不停歇,卓翼飞思职业院校无人智能装备师资培训圆满落幕

1月10日-15日,卓翼飞思在北京研发中心成功举办职业院校无人智能装备高级师资培训。来自湖南汽车工程职业学院(以下简称:湖南汽车职院)的10名师生&技术人员参与此次培训,针对无人智能集群应用开发进行系统性的培训及…

重生奇迹MU快速升级

1、前期,都是主线任务,我们必须要跟着主线任务走,前面的话升级一次需要的经验很少的,一天下来可以升级100级是轻轻松松的,主线任务是比较多的,我们跟着任务一直做差不多可以到150级,接下来就是后…

flink学习之水位线

什么是水位线 在事件时间语义下,我们不依赖系统时间,而是基于数据自带的时间戳去定义了一个时钟, 用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟,它的前进是靠数 据的时间戳来驱动的。 我们可以把时钟也以…

MySQL 基于创建时间进行RANGE分区

MySQL是一款广泛使用的关系型数据库。在MySQL中,大量数据场景提高查询效率是非常关键的,所以,对数据表进行分区是一个很好的选择。 在创建分区表之前,需要了解一下MySQL分区的基本概念。MySQL分区可以将一个大表分成多个小表&…

Skydel 23.8新版本发布!GNSS模拟器完成首项实地路测项目

奥本大学自动驾驶团队运用GNSS模拟器完成首项实地路测项目 奥本大学与最近与阿拉巴马州伯明翰的巴伯赛车运动公园合作进行道路测试,该车在没有任何人工干预的情况下成功绕赛道完成了一圈,这也是印地自动驾驶挑战赛中车辆首次在美国专业赛道上完成一圈。…

Docker(二)安装指南:主要介绍在 Linux 、Windows 10 和 macOS 上的安装

作者主页: 正函数的个人主页 文章收录专栏: Docker 欢迎大家点赞 👍 收藏 ⭐ 加关注哦! 安装 Docker Docker 分为 stable test 和 nightly 三个更新频道。 官方网站上有各种环境下的 安装指南,这里主要介绍 Docker 在…

Java项目:11 Springboot的垃圾回收管理系统

作者主页:舒克日记 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 功能介绍 本系统通过利用系统的垃圾回收流程,提高垃圾回收效率,通过垃圾回收的申请,增删改查,垃圾运输申…

docker部署项目,/var/lib/docker/overlay2目录满了如何清理?

docker部署项目,/var/lib/docker/overlay2目录满了如何清理? 一、问题二、解决1、查看 /var/lib/docker 目录(1)、containers 目录(2)、volumes 目录(3)、overlay2 目录 2、清理&…

橘子学K8S04之重新认识Docker容器

我们之前分别从 Linux Namespace 的隔离能力、Linux Cgroups 的限制能力,以及基于 rootfs 的文件系统三个角度来理解了一下关于容器的核心实现原理。 这里一定注意说的是Linux环境,因为Linux Docker (namespaces cgroups rootfs) ! Docker on Mac (bas…

管理文件名称技巧:如何用最后修改时间命名文件名的方法

当我们需要管理大量的文件时,一个好的文件命名策略是非常重要的。一个清晰、有组织的文件名可以让我们更容易地找到和组织文件,从而提高工作效率。其中一种有效的文件命名技巧是使用最后修改时间来命名文件。下面将介绍云炫文件管理器如何使用这种方法。…

【编码魔法师系列_构建型4】原型模式(Prototype Pattern)

👉直达编码魔法师系列其他文章👈 学会设计模式,你就可以像拥有魔法一样,在开发过程中解决一些复杂的问题。设计模式是由经验丰富的开发者们(GoF)凝聚出来的最佳实践,可以提高代码的可读性、可维…

[一]ffmpeg音视频解码

[一]ffmpeg音视频解码 一.编译ffmpeg1.安装vmware虚拟机2.vmware虚拟机安装linux操作系统3.安装ftp和fshell软件4.在Ubuntu(Linux)中编译Android平台的FFmpeg( arm和x86 )5.解压FFmpeg6.Android编译脚本(1)…