RHO-1: Not All Tokens Are What You Need 阅读笔记

news/2025/3/31 0:49:22/文章来源:https://www.cnblogs.com/yjh0614/p/18795058

论文地址
开源代码

论文背景

现有的大语言模型主要通过增加参数来提升性能,忽略了数据中的一些噪声tokens。
主要难题:去除tokens可能会导致语义产生偏差,关键在于如何能准确识别无效tokens。

主要贡献

先在高质量语料库对模型进行训练,根据期望分布对tokens进行评分,过滤掉不相关以及不干净的tokens(参考模型);SLM(Selective Language Modeling)利用参考模型中得到的tokens的loss来对该语料库中的tokens评分(训练模型);最后只选择在参考模型和训练模型中都表现出较高超额损失的标记进行语言模型训练。

architecture解释:首先通过在高质量的语料集中训练一个参考模型;接着利用该参考模型计算token的ppl(perplexity);最后仅利用得分高的token训练LLM。

对于语料库的研究发现:噪声tokens的Loss不会随着训练时间而增大或者减小,但是单个噪声token在训练过程中却会产生较大的方差,影响结果的准确性。该发现同时也符合直觉判断。

计算过程

参考模型训练好之后,利用RM在更大的语料库中计算token的参考Loss:

\[\mathcal{L}_{\text{RM}}(x_i) = -\log P(x_i|x_{<i}) \]

在使用模型\(\theta\)时的真实Loss:

\[\mathcal{L}_{\text{CLM}}(\theta) = -\frac{1}{N} \sum_{i=1}^{N} \log P(x_i|x_{<i};\theta) \]

计算差值:

\[\mathcal{L}_{\Delta}(x_i) = \mathcal{L}_{\theta}(x_i) - \mathcal{L}_{\text{RM}}(x_i) \]

最终SLM的Loss:

\[\mathcal{L}_{\text{SLM}}(\theta) = -\frac{1}{N * k\%} \sum_{i=1}^{N} I_{k\%}(x_i) \cdot \log P(x_i|x_{<i};\theta) \]

其中,\(I_{k\%}(x_i)\)即前k%的x选取(值为1),其余不选取(值为0)。

Datasets:
数学ML:0.5B,来自GPT以及人工编辑的数学相关tokens的高质量数据集。
一般ML:1.9B,融合多个数据集(Tulu-v2、OpenHermes-2.5)。
预训练数学模型:14B,来自OpenWebMath(OWM)。
与训练一般模型:80B,SlimPajama、StarCoderData、OpenWebMath的融合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/906815.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

接口测试——jmeter的实战

一、接口的请求方式 1、post请求 (1)添加线程组(2)添加http请求(3)填写http请求内容断言(4)查看结果(5)保存(6)运行2、get请求二、依赖接口 1、登录接口2、用户接口3、配置元件中加入cookie管理器优化多接口:http请求默认值三、关联接口省份接口:http://www.webx…

2023盘古石决赛复现

很大功夫。2023盘古石决赛复现 VC容器密码2ej)!,[JN-U;wm19J=d9sZt_L6#bf+}[ 这套题做起来感觉非常不舒服,学习到许多,菜是原罪。 感谢各位佬的博文指点。 流量分析 计算流量包文件的SHA256值是?[答案格式:字母小写] 2d689add281b477c82b18af8ab857ef5be6badf253db1c192352…

关于sqlalchemy 的数据merge操作

背景 因为我有两个数据表,本来是主表的id主键组为附表的外键,但是由于主键id的自增性,查阅了很多资料和论坛不好处理 关于什么是自增id导致id不连续 当我们在对数据库增删的时候,如果删除第二行在插入一行,就会发现新插入的id为3,id为2的主键值消失了。这样如果id被别的数…

雷池WAF磁盘空间告急?手把手教你轻松清理

雷池 WAF 磁盘空间清理指南 一、为什么磁盘会满?——了解空间去哪了 雷池 WAF 在保护你的网站时,会持续记录各种安全数据。主要占用空间的有两大"仓库": 1. 防护日志仓库(数据库)存放内容:攻击记录、人机验证日志、访问统计等 存储位置:默认由 PostgreSQL 数据…

接口测试——jmeter介绍和实战

一、jmeter的介绍 1、jmeter认识2、安装jdk(jmeter是java语言开发的) 填写路径,一般默认路径3、在dos下查看jdk是否成功命令:java -version 查看jdk版本安装成功后4、设置环境变量(1)属性>高级设置>环境变量(2)在系统变量中添加 a、JAVA_HOME b、C:\Program F…

图论建模(2-SAT,网络流)

/我要一步一步往上爬/等待阳光静静看着它的脸/小小的天有大大的梦想/重重的壳裹着轻轻的仰望/ /我要一步一步往上爬/在最高点乘着叶片往前飞/让风吹干流过的泪和汗/总有一天我要属于我的天/2-SAT相关 板子 基本 2-SAT代码inline int calc(int x,int y){ return y ? x + n : x;…

[CF 1906J] Count BFS Graph

前言 注意到这个题没想到点子上, 于是进行记录 思路 分析题目 + 基本性质 不难想到借用 \(\rm{bfs}\) 树来解决 于是深度分析 \(\rm{bfs}\) 树的性质 首先是原图中究竟哪些边影响了 \(\rm{bfs}\) 树 不难发现对于点 \(u\), 对于其 \(\rm{bfs}\) 树上的父亲 \(v\), 对于 \(\rm{b…

Ansible ERROR: Ansible requires the locale encoding to be UTF-8; Detected 936.

语言 区域设置 Beta版:使用Unicode UTF-8提供全球语言支持

DBeaver使用教程

sql语句生成测试数据: 我们在填写测试数据时,一个个人为填写数据,比较耗时,我们可以执行sql语句来帮我们实现这部分: 1.找到我们需要填写测试数据的表,在这里我们以goods为例:2.右键该表,找到控制台:3.输入sql指令,然后执行sql语句: sql语句可以让ai生成,也可以在这…