比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架-编程知识

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

news/2025/2/21 11:24:49/文章来源:https://www.cnblogs.com/wxkang/p/18728920

前言本文，来自 Meta 等机构的研究者提出了一种新颖且高效的预训练框架：连续概念混合（Continuous Concept Mixing, CoCoMix），其将离散的下一个 token 预测与连续概念相结合。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自机器之心

仅用于学术分享，若侵权请联系删除

CV方向的准研究生们，未来三年如何度过？

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

近年来，大型语言模型（LLMs）的进展彻底改变了自然语言处理领域，并因此成为各种现实应用中的核心技术，例如代码助手、搜索引擎和个人 AI 助手。

这些突破的核心在于对「下一个 token 预测」的范式。

然而，自然语言 token 代表的意思通常是表层的（例如 the 或 a 这样的功能性词汇），需要模型进行大量训练才能获得高级推理和对概念的理解能力，同时也限制了它们处理长期任务（如规划）的能力。

为了解决这一问题，最近的研究探索了超越 token 层面信号的方法。例如有研究表明稀疏自编码器（Sparse Autoencoders, SAEs）能够通过捕捉高级语义概念，有效地分离出大型语言模型（LLMs）中有意义的潜在特征。

CoCoMix 用来预测从预训练的稀疏自编码器中学习到的连续概念，并通过与 token 隐藏表示交错的方式将其混合到模型的隐藏状态中。

具体来说，本文使用经过预训练的 SAE 提取语义概念，并根据归因（attribution）分数选择最具影响力的概念，这些分数量化了每个概念对模型输出的影响。然后，模型通过交叉熵损失训练，从其隐藏状态中预测这些选定的概念。一旦预测出多个概念，就将它们压缩为单个连续概念，并通过与 token 嵌入交错的方式混合（或插入）到隐藏状态中，从而直接贡献于下一个 token 的预测。

本文通过在多个语言建模基准和不同规模的预训练模型（从百万级到十亿级参数规模）上进行了评估，从而证明了 CoCoMix 的有效性。

结果表明，CoCoMix 采样效率更高，优于标准的下一个 token 预测、知识蒸馏以及插入停顿 token。本文发现，在端到端的框架中结合概念学习和交错技术对于性能提升至关重要。

CoCoMix 性能有多好？举例来说，当将 CoCoMix 应用于一个 1.38B 规模的模型时，CoCoMix 在减少 21.5% 训练 token 的情况下，实现了与下一个 token 预测相当的性能。

此外，CoCoMix 在弱监督到强监督的场景中表现出显著改进，其中从小模型中提取的概念甚至可以用作监督更大模型训练的标签。

论文标题：LLM Pretraining with Continuous Concepts
论文地址：https://arxiv.org/pdf/2502.08524
项目地址：https://github.com/facebookresearch/RAM/tree/main/projects/cocomix

此前，Meta 提出了大型概念模型（LCM），同样也是通过概念而非 token 进行学习和推理，被许多声音认为是大模型范式变革的新起点。现在看来，CoCoMix 出现，让 Meta 在创新算法逐步取代「连续预测下一个 token」这条道路上又迈出了重要的一步。

CoCoMix 介绍

CoCoMix 是一个使用连续概念扩展下一个 token 预测的框架。

其核心训练流程包括：一个概念选择框架（参见图 1 左），以及两个用于学习和利用连续概念的训练步骤（step）（参见图 1 右）。

首先，本文使用归因分数选择重要概念，该分数衡量了每个概念对输出的影响。
然后，本文提出通过交叉熵损失从模型的隐藏状态中预测选定的概念，使模型能够隐式地学习哪些概念应被编码为隐藏表示。
最后，本文利用预测的概念创建一个连续概念，并将其交错插入到隐藏状态中，使模型能够显式地学习如何使用连续概念以及 token 隐藏状态。直观上，模型选择性地学习哪些概念对下一个 token 预测有用，以及如何将这些概念与 token 表示混合。

实验

实验部分，研究者主要通过以下几个问题对 CoCoMix 进行了实证评估：

CoCoMix 能否提高 LLM 预训练中下一个 token 预测的性能？(图 2 和图 3）
与其他知识提炼方法相比，CoCoMix 在弱到强监督设置中是否有所改进？(表 1 和图 4）
CoCoMix 是否引入了模型的可解释性和可操纵性？(图 5）
CoCoMix 的每个建议组件对性能有何贡献？(图 6）

首先是两个核心结果：

在相对大规模的预训练设置中与 NTP 的比较；
与 KD 基线的比较，尤其是在从小模型中提取的概念用于指导大模型的弱到强监督场景中。

大规模使用 CoCoMix 改进 NTP

如图 3 所示，CoCoMix 在各种规模的模型上都能持续显著提高下游任务的整体性能。结果还表明，较大的模型（如 386M 和 1.38B）可以从使用从较小的 124M 模型中提取的概念中获益，显示了有效的弱到强监督。

如图 2 所示，在十亿级规模的模型上，CoCoMix 与 NTP 相比持续提高了性能。例如，CoCoMix 的性能与 NTP 相近，但使用的 token 却减少了 21.5%，显示了很高的采样效率。最后，值得注意的是，使用 CoCoMix 所获得的性能增益随着训练步骤的增加而增加，显示出很强的泛化性能。