LLaMA (以LLaMA2为例,文末附加对比1 2 3 三个版本的变化)

news/2024/12/18 11:24:44/文章来源:https://www.cnblogs.com/zz-w/p/18614386

一、背景

LLaMA 2 和 LLaMA2-Chat
参数规模:70亿、130亿和700亿
数据和训练规模:
上下文长度
训练资源
性能表现:

二、预训练 pretraining

1. 预训练数据

· 训练语料来自公开课用的数据源,不包括Meta的产品或服务数据
· 在2万亿个数据tokens上进行了训练
· 对真实的数据源进行上采样以提高只是并减少错误

2. 训练细节

2.1 标准的Transformer架构

2.2 RMSNorm归一化

2.3 SwiGLU激活函数

2.4 RoPE 旋转位置编码

2.5 GQA 分组查询注意力

2.6 Tokenizer分词器

三、微调 fine-tuning

1. 有监督微调 SFT

2. 基于人工反馈的强化学习 RLHF

3. 多轮对话中保持一致性的系统消息

四、LLaMA的前世今生(LLaMA1,2,3)

Llama1

动机:Meta认为推理成本更重要,所以提高数据量而不是模型大小,因为训练只需要一次,而推理是无数次的

具体行动:针对Transformer-decoder架构,做了以下修改:

  1. 和GPT-3一样将Normalization从每个子层的输出位置移动到了输入位置

  2. 将Layer Norm 改为 RMS Norm
    动机:进行Norm时,对特征进行平移并不能改变特征的分布,所以可以去掉平移相关的部分
    Note: 平移相关的部分指的是:
    a. 输入特征-均值 \(x - E[x]\)
    b. 对标准化后进行线性变化偏差的参数 \(\beta\)

  1. 采用旋转位置编码

  2. 采用silu激活函数

和Relu比较像

我们尝试看看标记化时间如何受到更大的词汇量的影响。我们发现,将多词短语作为标记实际上的效果更差,然后只是添加更多标记,因为分词器不能假设一个词是每个标记的最大跨度。我们从 Wikipedia 中抽取 10K 个随机句子,并对 BERT 的标准大小写标记器使用 huggingface 的 12 实现。当使用原始词汇表(大小为 ∼ 20K)时,标记化需要 2.31 秒。当将词汇表扩展到我们收集的词汇表(大小为 ∼ 80K,包括多词短语)时,使用相同机器的标记化时间跃升至 8.92 秒。

Llama2

70B模型训练了172万GPU小时相当于2048个GPU训练35天

引入了GQA(Group Query Attention)

减小模型参数量和kv cache的大小

是左右的折中

Llama2只有70B做了GQA

Llama3

字典从三万2000个Token扩充4倍,提高推理效率,原来一个中文被编码为多个token,现在只需要1一个token,推理次数就减少了。

从仅聊天-->指令跟随

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/854729.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手把手教会你电脑端如何长截屏~

如果在电脑端想拿到这样的长截图,教你一个方法,不需要下载软件 首先需要先下载一个小插件 需要下载滚动截屏所需的插件 然后解压 zip 包 下载好插件后,对 .zip 包进行解压,解压后文件夹里面有个 .crx 后缀的离线安装包,大致如下图所示:打开扩展程序管理菜单 接下来,打开…

实时同步,精准执行!高效电商团队必备协作术

随着电商行业的迅猛发展,运营团队日常工作节奏变得愈发紧张。从上新规划、活动策划到商品数据分析、客服反馈跟进,各个环节的任务交接与流程协作逐渐成为团队效率的瓶颈。尤其是在多人并行的项目中,沟通不畅、文档版本混乱、任务分配模糊等问题层出不穷,稍有不慎,就可能导…

【运维自动化-作业平台】如何使用全局变量之命名空间类型?

命名空间类型的全局变量主要适用场景是同一批主机在多个步骤间需要传递独立的变量值,比如内网ip、hostame,每台主机都是不同的变量值。而字符串变量是全局针对所有主机所有步骤都是一样的变量值。实操演示 例:定义一个local_ip的命名空间变量,目标两台机器,然后添加两个执…

智改数转,物联网创业者有哪些商业机会?

《智改数转,物联网创业者有哪些商业机会》 在当前的数字化转型浪潮中,“智改数转”(智能化改造和数字化转型)已成为企业发展的新趋势。物联网(IoT)作为这一转型的核心技术之一,为创业者提供了丰富的商业机会。以下是物联网创业者可以把握的几个关键商业机会: 1. 设备制…

中小团队必备工具:如何用协同管理软件提高效率

一、中小团队面临的工作效率挑战 中小团队通常面临以下几个主要的工作效率问题: 1.1 资源有限,工作繁重 与大型企业相比,中小团队往往资源有限,人员紧张,团队成员往往需要身兼数职,处理多种任务。这种情况下,如何有效分配工作、确保每项任务顺利推进,就成为了管理的关键…

【原创】PREEMPT-RT中断线程化原理与中断线程优先级设置

本文介绍实时linux方案PREEMPT-RT提升系统实时性的机制之一--中断线程化,以及中断线程优先级如何配置,希望能对你有所帮助。PREEMPT-RT中断线程化与中断线程优先级设置 目录PREEMPT-RT中断线程化与中断线程优先级设置一、什么是中断线程化1. 普通Linux中断处理2. 实时性的不足…

NPM,可视化的Nginx管理工具

NPM,可视化的Nginx管理工具 前言 NPM,全称:Nginx Proxy Manager,是一款可视化的Nginx的管理工具。众所周知,Nginx的配置文件对于新手尤其是我这样的小白,还是很难上手配置的。虽然说现在可以使用AI,大大降低了理解,配置难度,但是可视化的配置仍然具有很大的优势,极大的…

汽车软件DevOps解决方案

经纬恒润汽车软件DevOps解决方案是专为现代汽车行业设计的一套集成化需求、开发、测试、部署、OTA与监控,旨在加速软件开发流程,提高软件质量和安全性,同时确保整个生命周期的高效性和灵活性。 经纬恒润汽车软件DevOps解决方案是专为现代汽车行业设计的一套集成化需求…

idea构建Build Project项目时一直卡在解析阶段解决办法

可能是内存不足,修改以下三个地方 1、help->Edit Custom VM Options-Xmx4096m 2、file->settings->Build,Execution,Deployment->Build Tools->Maven->Importing的VM options for importer写入参数-Xmx4096m3、file->settings->Build,Execution,Deplo…

PbootCMS 网站打开提示“No input file specified.”,如何解决?

当你在访问 PbootCMS 网站时,如果遇到“No input file specified.”的错误提示,这通常是由于服务器配置或文件缺失引起的问题。以下是一些常见的解决方法和步骤:检查根目录下的 user.ini 文件:这个问题的一个常见原因是根目录中存在 user.ini 文件。这个文件通常是服务器为…

在PbootCMS中如何优化图片的SEO属性?

在PbootCMS中优化图片的SEO属性对于提高网站的搜索引擎排名和用户体验至关重要。以下是一些具体的优化方法,帮助你更好地管理图片的alt和title属性:手动编辑图片描述:在PbootCMS后台,上传图片后,可以通过编辑器手动添加或修改图片的alt和title属性。 例如,当你插入图片时…

PbootCMS模板上传栏目缩略图时,图片宽度自动变成1000像素,如何解决?

在使用PbootCMS模板时,如果你发现上传的栏目缩略图在保存后自动变成了1000像素的宽度,这通常是由于系统配置中的缩略图最大宽度设置所致。你可以通过修改配置文件来解决这个问题。以下是详细的步骤和实现方法:理解问题原因:PbootCMS在上传图片时会根据配置文件中的设置自动…