🧑💻 本文主要讲解Megatron早期版本中的数据混合算法。 目录 1. 数据混合2. 源码解析3. 证明部分&讨论4. 进一步优化 1. 数据混合
在谈源码之前,我们有必要先了解一下Megatron中的数据混合思想。
给定 n n n 个数据集 D 1 , D 2 , …
while循环
Python 编程中 while 语句用于循环执行程序,即在某条件下,循环执行某段程序,以处理需要重复处理的相同任务。其基本形式为:
while 判断条件(condition): 执行语句(statements)…… 执行语句可以是单个语句…