官宣!Meta正在训练Llama 3,将继续开源

1月19日,全球社交、科技巨头Meta的联合创始人兼首席执行官-Zuck(扎克伯格)在is宣布,正在训练Llama 3并且以负责任地方式继续开源。

Zuck表示,预计到2024年底,Meta将拥有350,000块H100,如果算上其他算力资源将达到近600,000块H100。

所以,Meta有足够的AI算力资源来支持其生成式AI和FAIR(旗下AI部门)的技术研究。未来,会公布更多的产品消息。

去年8月,就有过传言Meta正在训练Llama 3。现在,官方正式确认,这对于企业、个人开发者来说都是一个好消息,可以继续以开源的方式使用与GPT-4、Gemini Ultra相媲美的大模型。

扎克伯格确认Llama 3和现有AI算力资源

图片

类ChatGPT开源模型鼻祖——Llama

早在去年2月,ChatGPT火爆出圈时,全球多个国家、地区皆在尝试开发类似的产品。虽然已经有一些开源产品,但在功能、能耗等方面与其相差甚远。

同月,Meta重磅开源了类ChatGPT开源模型LLaMA。随后,国内外不少科研机构、个人开发者在LLaMA基础之上,开发了众多知名开源项目。但LLaMA有一个致命缺点,无法商业化只能用于研究。

图片

LLaMA与ChatGPT同样是基于Transformers架构演变而来,共有70亿、130亿、330亿和650亿参数四种类型,接受了20种不同语言文本的训练。

数据训练方面,LLaMA使用公开可用的数据集进行训练,其中包括开放数据平台Common Crawl、英文文档数据集C4、代码平台GitHub、维基百科、论文平台ArXiv等,总体标记数据总量大约在1.4万亿个Tokens左右。

Meta认为,在更多标记(单词)上训练的较小模型,更容易针对特定的潜在产品用例进行再训练和微调,同时性能也更加聚焦。

2023年7月,Meta在LLaMA基础之上训练、开源了LLaMA 2,拥有70亿、130亿、340亿和700亿四种参数,并且这一代终于允许商业化

图片

Llama 2 预训练模型接受了2万亿个标记的训练,上下文长度是Llama 1的两倍。其微调模型已经接受了超过100 万个人类注释的训练,整体性能非常强悍。

目前,Llama 2也是整个生成式AI开源界应用最多的大模型之一。

开源生成式AI联盟主力军——Meta

看到生成式AI的庞大场景化落地,Meta已经将其列为重要发展赛道。

为了对抗OpenAI、谷歌为代表的闭源阵营,去年12月,Meta联合甲骨文、英特尔、AMD、IBM、索尼、戴尔等57家科技、学术研究等知名机构组成了“AI联盟”。

这个联盟有6大目标,其中重要一项便是要搭建开源大模型生态,包括从研究、评估、硬件、安全、公众参与等一整套流程。

图片

事实上,Meta作为这个联盟的主要发起者和“盟主”,在2023年,除了LLaMA,还开源了一系列重要模型。

开源文本生成音乐模型Audiocraft:这是一个混合模型,由MusicGen、AudioGen和EnCodec组合而成。用户仅用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。

最大公开多模态视频数据集—Ego-Exo4D:该数据集收集了来自13个城市839名参与者的视频,总时长超过1400小时,包含舞蹈、足球、篮球、攀岩、音乐、烹饪、自行车维修等8大类,131个复杂场景动作。这使得AI模型更好地理解人类的行为,有助于开发出更强大的多模态大模型。

开源视觉模型DINOv2:采用了一种新的高性能计算机视觉模型的方法,无需微调具备自我监督学习(SSL),可以从任何图像集合中学习。还可以学习当前标准方法无法学习的特征,例如,深度估计。

可以预见,2024年,Meta将继续扬帆起航,开源更多的重磅产品造福全球开发者和企业。

本文素材来源Meta官网、扎克伯格is,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/414480.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch各种损失函数解析:深度学习模型优化的关键(1)

目录 详解pytorch中各种Loss functions binary_cross_entropy 用途 用法 参数 数学理论 示例代码 binary_cross_entropy_with_logits 用途 用法 参数 数学理论 示例代码 poisson_nll_loss 用途 用法 参数 数学理论 示例代码 cosine_embedding_loss 用途 …

数据结构--串

本文为复习的草稿笔记,,,有点乱 1. 串的基本概念和基本操作 串是由零个或多个字符组成的有限序列 2. 串的存储结构 3.串的应用 模式匹配 BF算法(简单匹配算法 穷举法 算法思路:从子串的每一个字符开始依次与主串…

卷积神经网络和深度神经网络的区别与联系

DNN是指深度神经网络,它是一个很广的概念,某种意义上CNN、RNN、GAN等都属于其范畴之内。DNN与CNN([卷积神经网络)的区别是DNN特指全连接的神经元结构,并不包含卷积单元或是时间上的关联。其中最初的神经网络的所有隐含…

尚硅谷Nginx高级配置笔记

写在前面:本笔记是学习尚硅谷nginx可成的时候的笔记,不是原创,如有需要,可以去官网看视频,以下是pdf文件 Nginx高级 第一部分:扩容 通过扩容提升整体吞吐量 1.单机垂直扩容:硬件资源增加 云…

基于Java SSM框架实现中学校园网站管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现中学校园网站管理系统演示 摘要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认…

2024-01-15(SpringMVCMybatis)

1.拦截器:如果我们想在多个handler方法(controller中的方法)执行之前或者之后都进行一些处理,甚至某些情况下需要拦截掉,不让handler方法执行,那么就可以使用SpringMVC为我们提供的拦截器。 拦截器和过滤器的区别:过滤…

【C++ Primer Plus】2.1 进入C++

代码示例 #include <iostream> // a preprocessor directive 预处理器指令 int main () // function header { // start of function bodyusing namespace std; // make definitions visiblecout << "hello!"; // message…

TypeScript依赖注入框架Typedi的使用、原理、源码解读

简介 typedi是一个基于TS的装饰器和reflect-metadata的依赖注入轻量级框架&#xff0c;使用简单易懂&#xff0c;方便拓展。 使用typedi的前提是安装reflect-metadata&#xff0c;并在项目的入口文件的第一行中声明import ‘reflect-metadata’&#xff0c;这样就会在原生的R…

优思学院|初入职质量工程师必须要考CQE?你真正要做的是...

最近收到有一位质量工程师的人士提问&#xff0c;他是初入职的新人&#xff0c;是否需要考质量工程师证&#xff0c;很多人以为需要&#xff0c;因为做会计的有会计证&#xff0c;要开车的人要有驾驶证&#xff0c;所以质量工程师就需要有质量工程师证&#xff0c;做但其实这并…

soso移动营业大厅(纯后端+MySQL数据库+JDBC)

一、项目需求 中国移动,中国联通,中国电信是国内3大通信运营商,每个运营商都提供了不同的品牌套餐来应对不同的用户群,比如北京移动主要有全球通,神州行,动感地带等3大品牌套餐,每种套餐的内容和费用不同,嗖嗖移动是一个假定的通信运营商,提供了话痨套餐,网虫套餐,超人套餐,各…

【C语言基础考研向】06运算符与表达式

文章目录 1.运算符分类 2.算术运算符及表达式 3.关系运算符与关系表达式 4.c语言运算级优先级表 课后习题自测 1.运算符分类 语言提供了13种类型的运算符,如下所示. (1)算术运算符( - * / %) . (2)关系运算符(>< >< l) . (3)逻辑运算符(l && ll) . (4)位…

【SpringCloud】微服务框架后端部署详细过程记录20240119

前言&#xff1a;前两天公司接到客户提供的一个微服务框架&#xff0c;导师让我在本地部署验证一下该框架的可用性&#xff0c;借此机会记录一下微服务项目的一个基本部署流程&#xff0c;仅供学习参考&#xff0c;如有不足还请指正&#xff01; 文件结构 提供的压缩文件共包含…