100%开源大模型OLMo:代码/权重/数据集/训练全过程公开,重定义AI共享

前言

近日,艾伦人工智能研究所联合多个顶尖学术机构发布了史上首个100%开源的大模型“OLMo”,这一举措被认为是AI开源社区的一大里程碑。OLMo不仅公开了模型权重,还包括了完整的训练代码、数据集和训练过程,为后续的开源工作设立了新的标准。这一开源模型的推出,无疑将极大促进自然语言处理(NLP)技术的发展和研究。

  • Huggingface模型下载:https://huggingface.co/allenai/OLMo-7B

  • AI快站模型免费加速下载:https://aifasthub.com/models/allenai

OLMo模型的创新之处

OLMo模型基于decoder-only的Transformer架构,采用了PaLM和Llama使用的SwiGLU激活函数,引入了旋转位置嵌入技术(RoPE),并改进了基于字节对编码(BPE)的分词器,以减少模型输出中的个人可识别信息。此外,该模型还采用了不使用偏置项的策略,以增强模型的稳定性。

开源内容的全面性

OLMo的开源内容包括了模型的所有相关资料:

  • 模型权重和训练代码:提供了四个不同架构、优化器和训练硬件体系下的7B大小的模型,以及一个1B大小的模型。

  • 预训练语料库:包含高达3T token的开源语料库,及其生成代码。

  • 评估工具套件:包括每个模型训练过程中每1000步中包含的超过500个的检查点以及评估代码。

性能评估

从评估结果来看,OLMo-7B模型在多个核心任务上的准确率呈现上升趋势,显示了良好的性能。尤其是在生成任务或阅读理解任务上,OLMo-7B甚至超过了Llama 2等同类开源模型,尽管在某些热门的问答任务上表现略逊。

在很多生成任务或阅读理解任务(例如truthfulQA)上,OLMo-7B都超过了Llama 2,但在一些热门的问答任务(如MMLU或Big-bench Hard)上表现则要差一些。

下图展示了9个核心任务准确率的变化趋势。

除了OBQA外,随着OLMo-7B接受更多数据的训练,几乎所有任务的准确率都呈现上升趋势。

与此同时,OLMo 1B与其同类模型的核心评估结果表明,OLMo与它们处于同一水平。

开源带来的影响

OLMo的全面开源,不仅为AI研究提供了宝贵的资源,还有助于降低研究和开发的门槛,推动AI技术的创新和发展。通过这种开放的模式,研究人员可以更深入地探索AI模型的内部运作机制,共同推动语言模型科学的进步。

结论

OLMo的发布,标志着AI开源模型进入了一个新的时代。随着越来越多的研究机构和企业加入到开源的行列,我们有理由相信,未来的AI技术将更加开放、透明和创新。

模型下载

Huggingface模型下载

https://huggingface.co/allenai/OLMo-7B

AI快站模型免费加速下载

https://aifasthub.com/models/allenai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/512965.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++ primer学习笔记(一)

目录 第一章、c快速入门 重点:类的简介 第二章 1、基本内置类型 2、字面值常量 1、整型字面值规则 2、浮点字面值规则 3、布尔字面值 4、字符字面值 5、非打印字符的转义序列 ​编辑 6、字符串字面值 3、变量 1、变量标识符 2、定义和初始化对象 3、…

基于Django的携程网Top热门景点数据可视化分析

前言: 今天给大家分享一个基于Django的携程网Top热门景点数据可视化分析项目,以下是该项目大大概内容 项目名称:基于Python(django)的携程Top热门景点数据可视化分析 涉及技术:Python,Djang…

TCP协议的粘包问题解决方式

粘包问题 首先说明一点,TCP有粘包问题,UDP没有粘包问题。 发送端可以是1KB地发送数据,而接收端的应用程序可以2KB地提走数据,当然也有可能一次提走3K或6K数据,或者一次只提走几个字节的数据,也就是说&…

Vue基础入门(2)- Vue的生命周期、Vue的工程化开发和脚手架、Vue项目目录介绍和运行流程

Vue基础入门(2)- Vue的生命周期、Vue的工程化开发和脚手架、Vue项目目录介绍和运行流程 文章目录 Vue基础入门(2)- Vue的生命周期、Vue的工程化开发和脚手架、Vue项目目录介绍和运行流程5 生命周期5.1 Vue生命周期钩子5.2 在creat…

2.8k star! 用开源免费的edge-tts平替科大讯飞的语音合成服务

edge-tts是github上的一个开源项目,可以免费将文本转为语音,别看它只有2.8k star,替代科大讯飞的收费TTS服务完全没问题,因为这个项目实际是调用的微软edge的在线语音合成服务,支持40多种语言,300多种声音&…

数据结构之七大排序

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary_walk ⸝⋆ ━━━┓ - 个性标签 - :来于“云”的“羽球人”。…

【车辆安全管理】强制降速系统

在很久之前,我们就讨论过车辆强制降速系统的重要性,即使驾驶人故意撞人,也难以做到,因为强制降速系统会控制车辆的速度。强降速系统可以通过多种传感器进行智能分析,即使降速。 汽车的Robot化概念-CSDN博客 最近发生…

Android Gradle开发与应用 (四) : Gradle构建与生命周期

1. 前言 前几篇文章,我们对Gradle中的基本知识,包括Gradle项目结构、Gradle Wrapper、GradleUserHome、Groovy基础语法、Groovy语法概念、Groovy闭包等知识点,这篇文章我们接着来介绍Gradle构建过程中的知识点。 2. Project : Gradle中构建…

Stable Diffusion 模型分享:CG texture light and shadow(CG纹理光影)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八 下载地址 模型介绍 一个拥有cg质感和光影的融合模型,偏2.5D 条目内容类型大模型基础模型SD 1.5来…

第七个程序:两个字符串连接后计算长度

实验步骤; 第一步:新建项目 第二步:程序编写 第三步:运行结果 Labview一共7个字节,长度为7,一个字母一个字节 汉字为2个字节,图一为4,图二为8 所以结果分别为11和15 视频教学: 字…

静态时序分析:SDC约束命令set_disable_timing详解

静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html 目录 指定对象列表 指定源、目的引脚 指定恢复 简单使用 写在最后 上一章中,我们学习了如何使用set_case_analysis模式分析命令,它通过指定某个端口或引脚为固定值&…

企业计算机服务器中了halo勒索病毒如何解密,halo勒索病毒数据恢复流程

随着网络技术的不断发展,企业的生产运营效率得到了极大提升,越来越多的企业开始利用网络开展各项工作业务,企业的网络数据安全问题,成为大家关心的主要话题。近期,云天数据恢复中心接到多家企业的求助,企业…