OLMo 以促进语言模型科学之名 —— OLMo Accelerating the Science of Language Models —— 全文翻译

OLMo: Accelerating the Science of Language Models
OLMo 以促进语言模型科学之名


摘要

语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增,所以,其中最强大的模型已经闭源,控制在专有接口之中,保持特别是训练数据、架构和开发的重要的细节秘而不宣。  考虑到科学地研究这些模型的细节的重要性,包括他们的偏见和潜在风险,我们坚信能够把玩强大的、真正开源的语言模型,对于科学研究社区是非常重要的。为了这个目的,这份技术报告详述了 OLMo 的第一个发行版,这包括一个达到高水准的、真正开源的语言模型,和它构建和研究语言模型科学的的整个框架流程。不同于许多之前那些尝试,他们仅仅发布了模型的权重和推理代码,我们发布了OLMo,以及它的整个框架,这包括训练数据和训练与评估代码。我们希望这些发布将赋能开源研究社区并且激励一个新的创新浪潮。
 

Weights        https://huggingface.co/allenai/OLMo-7B
Code             https://github.com/allenai/OLMo
Data              https://huggingface.co/datasets/allenai/dolma
Evaluation    https://github.com/allenai/OLMo-Eval
Adaptation   https://github.com/allenai/open-instruct
W&B Logs    https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5

1. 引言


语言模型成为NLP技术的中心已经很多年了(Rosenfeld, 2000; Bengio et al., 2003; Mikolov et al., 2013; Peters et al., 2018; Brown et al., 2020)。最近,因为大规模的预训练和人类的对齐标注,它们已经成为了商业上的贵重物品 (OpenAI, 2023)。然而,随着它们的商业价值的已然增加,大模型已经控制在专有接口之中,而且大量重要细节也被秘而不宣。我们相信能够充分把玩开源语言模型,对于科学研究社区能够对这些模型做科学的研究、对它们的优点和弱点的研究、对它们的偏差和风险的研究,是非常重要的。据此,我们介绍了OLMo,一个达到高水准的、真正开源的语言模型和框架,用来构建、研究和促进语言模型,并且给出了训练数据、训练和评估的源代码,中间模型检查点、和训练日志。

未完待续 ... ...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/472600.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL数据库基础(五):SQL语言讲解

文章目录 SQL语言讲解 一、SQL概述 二、SQL语句分类 1、DDL 2、DML 3、DQL 4、DCL 三、SQL基本语法 1、SQL语句可以单行或多行书写,以分号结尾 2、可使用空格和缩进来增强语句的可读性 3、MySQL数据库的SQL语句不区分大小写,关键字建议使用大写…

政安晨:【示例演绎】【Python】【Numpy数据处理】快速入门(三)—— 数组的操作

准备 这是Numpy数据处理的示例演绎系列文章的第三篇,我的前两篇文章为: 政安晨:【示例演绎】【Python】【Numpy数据处理】快速入门(一)https://blog.csdn.net/snowdenkeke/article/details/136125773 政安晨&#x…

基于FFmpeg+openCV的视频语音通讯系统

基于FFmpegopenCV的应用很多,其中类似于钉钉、腾讯会议的视频语音通讯系统是比较复杂的系统,一般情况下,这样的系统要包括麦克风及摄像头的推送与播放、共享桌面、共享白板等,当然最好还要有可以实时更新的在线列表,就…

浅析Linux追踪技术之ftrace:综述

文章目录 概述Ftrace工作原理Ftrace追踪器Ftrace探测技术GCC的profile特性 tracefs文件系统控制文件trace信息 Ftrace使用tracer配置步骤function tracer使用示例 相关参考 概述 Ftrace,全称Function Tracer,是一个内部跟踪器,旨在帮助系统的…

基于剪贴板的文件传输方案

文章目录 背景原理步骤获取待上传文件的十六进制数据格式转换输出 背景 某次误删了环境上的C库之后想到的 什么都不可用了,但当前的ssh连接还在,echo命令和重定向符还可以使用 这就催生了我的想法:直接用echo -en “\xab\xcd” > file这样…

林浩然与杨凌芸的Java时光魔法:格式化历险记

林浩然与杨凌芸的Java时光魔法:格式化历险记 The Java Time Odyssey of Lin Haoran and Yang Lingyun: A Formatting Adventure 在编程世界的一隅,有一个名叫林浩然的程序员。他是个Java大侠,对代码世界的法则了如指掌,尤其擅长驾…

后端接口如何部署到前端

先跑通后端 把后端接口路径写入前端两个env.js中的BASE_API 这里以后要替换成个人域名,目前就可以对前端进行打包,改了代码记得先重新打包

luigi,一个好用的 Python 数据管道库!

🏷️个人主页:鼠鼠我捏,要死了捏的主页 🏷️付费专栏:Python专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 前言 大家好,今天为大家分享一个超级厉害的 Python 库 - luigi。 Github地址:https://github.com/spotify/luigi 在大数据时代,处理海量数据已经成…

LeetCode 0103.二叉树的锯齿形层序遍历:层序遍历 + 适时翻转

【LetMeFly】103.二叉树的锯齿形层序遍历:层序遍历 适时翻转 力扣题目链接:https://leetcode.cn/problems/binary-tree-zigzag-level-order-traversal/ 给你二叉树的根节点 root ,返回其节点值的 锯齿形层序遍历 。(即先从左往…

机器学习面试:请你谈谈逻辑回归的用法?

逻辑回归可用于以下几个方面: (1)用于概率预测。用于可能性预测时,得到的结果有可比性。比如根据模型进而预测在不同的自变量情况下,发生某病或某种情况的概率有多大。 (2)用于分类。实际上跟预测有些类似,也是根据模型,判断某人属…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Marquee组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Marquee组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、Marquee组件 跑马灯组件,用于滚动展示一段单行文本,仅当…

天猫平台数据查询(天猫数据分析):床上用品市场规模达335亿,床品消费呈现功能化趋势

作为人们的生活必需品之一,床上用品的市场规模庞大。近年来,越来越多消费者购物习惯发生转变,线上客流大幅提升,面对这一变化,许多家纺企业开始借助线上平台开展销售,不断创新营销模式,通过短视…