Gradient发布支持100万token的Lllama3,上下文长度从8K扩展到1048K

前言

近日Gradient公司在Crusoe Energy公司的算力支持下,开发了一款基于Llama-3的大型语言模型。这款新模型在原Llama-3 8B的基础上,将上下文长度从8000 token大幅扩展到超过104万token。

这一创新性突破,展现了当前SOTA大语言模型在长上下文学习方面的能力。Gradient团队通过合理调整RoPE,以及采用渐进式训练的方法,仅使用了原Llama-3不到0.01%的训练数据,就实现了这一飞跃。

  • Huggingface模型下载:https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

  • AI快站模型免费加速下载:https://aifasthub.com/models/gradientai

技术亮点

Gradient发布的这款超长上下文Llama-3模型,主要有以下几个技术特点:

  • 大幅扩展的上下文长度

相比Llama-3 8B仅支持8000 token的上下文长度,新模型可处理超过104万token的长文本。这不仅可以更好地支持复杂的多轮对话,也为处理长篇文章、报告等提供了基础。

  • 高效的分阶段渐进式训练

Gradient采用了类似"Large World Model"的分阶段渐进式训练方法。他们先在较短的上下文上进行预训练,然后逐步增加训练数据的上下文长度,直至达到104万token。这种策略可以有效提升模型在长上下文上的学习效果。

  • 优化的RoPE

RoPE是Llama-3等模型用于编码位置信息的关键组件。Gradient团队采用了基于NTK(Neural Tangent Kernel)的插值方法,合理初始化RoPE theta参数,并进行后续经验性优化,进一步增强了模型在长上下文下的性能。

应用前景

凭借出色的性能和大幅扩展的上下文长度,Gradient发布的这款Llama-3超长上下文模型,在以下场景中具有广阔的应用前景:

  • 对话式AI助手:100万token的上下文长度,可以帮助构建功能强大、记忆力持久的对话式AI助手。

  • 智能问答系统:出色的常识理解和推理能力,可以提供更准确全面的信息回答。

  • 编程助手:优秀的代码理解和生成能力,可以为程序员提供智能化的编码辅助。

  • 内容生成:强大的语言理解和生成能力,可以辅助撰写报告、文章、剧本等各类内容创作。

总的来说,Gradient发布的这款Llama-3超长上下文模型,必将为对话式AI、智能问答、编程辅助等领域带来新的发展机遇,为人工智能应用注入新的动力。

模型下载

Huggingface模型下载

https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

AI快站模型免费加速下载

https://aifasthub.com/models/gradientai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/687223.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

while 习题

while 结构 习题 1.计算1到100所有整数和 2.提示用户输入一个小于100的整数,并计算从1到该数之间所有整数的和 3.求从1到100所有整数的偶数和、奇数和 echo -e \n 可以实现换行 4.用户输入密码,脚本判断密码是否正确,正确密码为123456&am…

章十二、数据库(1) —— 概述、MySQL数据库、SQL、DDL、DML、DQL、多表设计

为什么学习数据库: ● 实现数据持久化到本地; ● 使用完整的管理系统统一管理,可以实现结构化查询,方便管理; 一、 数据库概述 ● 数据库 数据库(DataBase)为了方便数据的 存储 和 管理 &…

01、vue+openlayers6实现自定义测量功能(提供源码)

首先先封装一些openlayers的工具函数,如下所示: import VectorSource from ol/source/Vector; import VectorLayer from ol/layer/Vector; import Style from ol/style/Style; import Fill from ol/style/Fill; import Stroke from ol/style/Stroke; im…

【Linux】项目自动化构建工具make/makefile

🎉博主首页: 有趣的中国人 🎉专栏首页: Linux 🎉其它专栏: C初阶 | C进阶 | 初阶数据结构 小伙伴们大家好,本片文章将会讲解Linux中项目自动化构建工具make/makefile的相关内容。 如果看到最后…

单链表经典oj题(2)

前言 这次将要把剩下的oj题将以图解和自己的理解把它讲解完,希望对大家有所帮助,这次的讲解也是干货 第一题 21. 合并两个有序链表 - 力扣(LeetCode) ok这次就简单点,大家自己去看题目了 将两个升序链表合并为一个…

Ubuntu18.04--虚拟机配置Samba并从Windows登录

前言: 本文记录我自己在Windows上安装 Virtualbox ,并在Virtualbox中安装 Ubuntu-18.04 虚拟机,在Ubuntu-18.04虚拟机里安装配置Smaba服务器,从 Windows 宿主系统上访问虚拟机共享samba目录的配置命令。 引用: N/A 正文 虚拟…

​​​【收录 Hello 算法】5.1 栈

目录 5.1 栈 5.1.1 栈的常用操作 5.1.2 栈的实现 1. 基于链表的实现 2. 基于数组的实现 5.1.3 两种实现对比 5.1.4 栈的典型应用 5.1 栈 栈(stack)是一种遵循先入后出逻辑的线性数据结构。 我们可以将栈类比为桌面上的一摞盘子…

Linux diff命令(比较两个文件或目录的内容差异)

文章目录 Linux diff 命令详解教程基本用法比较文件输出解释 递归比较(-r)示例代码 控制输出格式统一格式(-u)上下文格式(-c) 高级选项忽略所有空白差异(-w)仅报告文件是否不同 Linu…

SVN 合并到 Git 时有文件大于 100 M 被限制 Push

如果有文件大小大于 100M,GitHub 是会被限制推送到仓库中的,大概率情况会显示下面的错误: remote: Resolving deltas: 100% (3601/3601), done. remote: error: Trace: aea1f450da6f2ef7bfce457c715d0fbb9b0f6d428fdca80233aff34b601ff59b re…

RobbitMQ基本消息队列的消息发送过程

RabbitMQ: One broker to queue them all | RabbitMQ RabbitMQ官网 SpringAmqp的官方地址:Spring AMQP 代码示例:对着代码看应该能看明白 publisher:消息发送者的代码示例 package cn.itcast.mq.helloworld;import com.rabbitmq.client.Channel; import com.rabb…

线路和绕组中的波过程(一)

本篇为本科课程《高电压工程基础》的笔记。 本篇为这一单元的第一篇笔记。下一篇传送门。 当电路中的设备(元件)最大实际尺寸l大于人们所感兴趣的谐波波长 λ \lambda λ时,可以作为集中参数处理,否则就要当做分布参数处理。即&…

基于STM32移植lvgl(V8.2)(SPI接口的LCD)

目录 概述 1 认识LVGL 1.1 LVGL官网 1.2 LVGL库文件下载 2 认识SPI接口型LCD 2.1 PIN引脚定义 2.2 MCU IO与LCD PIN对应关系 3 实现LCD驱动 3.1 使用STM32Cube配置Project 3.2 STM32Cube生成工程 4 移植LVGL 4.1 准备移植文件 4.2 添加lvgl库文件到项目 4.2.1 src下…