广受好评的开源基础大模型最全梳理,你最钟意哪一个?

2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。

开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?

迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带来惊艳的表现,让我们刮目相看。

开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。这些模型被社区迅速发展,给专有模型带来了强有力的挑战,能够改变大型科技公司的竞争格局。

今天我来分享一些广受好评的开源的基础大模型,非基于基础模型的微调模型,列表如下:

开源的基础大模型列表

序号名称参数规模数据规模说明
1LLaMA-27B,13B,34B,70B2T可商用
2Falcon7B,40B,180B3.5T数据集 RefinedWeb
3baichuan-27B,13B2.6T开放,商用需授权,baichuan-1
4InternLM7B,20B2.3T开放,商用需授权
5BLOOM3B,7.1B,176B366B可商用,最为宽松,详细介绍
6GALACTICA6.7B,30B,120B106B开放的科学文本和数据
7LLaMA7B,13B,30B,65B1.4TMeta,代码开源,模型“泄露”,不可商用,详细介绍
8MOSS-moon16B700B6.67x1022 FLOPs
9ChatGLM26B1.4T
10StableLM3B,7B800B
11RedPajama-INCITE3B,7B1T
12GPT-NeoX20B3.15M800GB的The Pile数据集
13OpenLLaMA3B,7B,13B1T
14MPT7B,30B1T
15Pythia2.8B,6.9B,12B300B
16XGen7B1.5T
17OPT6.7B,13B,30B,66B,175B180B
18Qwen7B,14B,72B2.4T,3.0T,3.0T
19XVERSE13B,65B1.4T,2.6T
20Aquila27B,34B2T
21PrithviIBM+NASA,地理空间,100M(图片)
22Skywork13B3.2T昆仑万维·天工
23Deepseek Coder1.3B,6.7B,33B2TDeepseek Coder comprises a series of code language models trained on both 87% code and 13% natural language in English and Chinese, with each model pre-trained on 2T tokens.
24Aquila7B悟道·天鹰
25Yi6B,34B3T
26Mistral7B欧洲
27Yuan-22B,51B,102B
28Mistral 7BX8 MoE56B7BX8 MoE

非基础大模型

  • WizardLM,WizardMath,WizardCoder
  • Alpaca
  • Vicuna
  • Guanaco
  • CodeLLaMA
    • 7B,13B,34B,基于LLaMA2,增加了650B左右的代码词元进行增量训练和微调

模型架构

  • GPTQ
  • LLaMA

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

建了技术交流群&星球!想要资料、进交流群的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司,即可。然后就可以拉你进群了。

方式①、添加微信号:mlc2060,备注:大模型资料 or 技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:大模型资料 or 技术交流

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/282914.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jrebel debug 启动不起来

idea更新之后jrebel debug模式启动不起来。 将下面的设置取消之后就可以了,希望能帮到你们… 被卡了两天… jrebel信息。 idea IntelliJ IDEA 2023.3.1 (Ultimate Edition) Build #IU-233.11799.300, built on December 12, 2023 Licensed to Alexandra Martin…

【SpringBoot零基础入门到项目实战②】安装Java和Maven,创建你的第一个项目

文章目录 导言安装JavaWindows系统macOS系统Linux系统 安装和配置 MavenWindows系统macOS系统Linux系统配置 Maven 本地仓库使用阿里镜像加速 创建第一个Spring Boot项目拓展学习(提前了解 后面会讲到)1. 深入理解Spring Boot的项目结构2. 学习Spring Bo…

打破多APP困境,WorkPlus统一入口让企业协同更高效

在信息时代,企业面临着协同与管理的挑战:多个应用、多套账号密码、频繁切换系统,这不仅增加了员工的操作负担,也降低了工作效率。为解决这一问题,WorkPlus以其超级APP的全方位功能,为企业提供了一个统一入口…

gin框架

1、go run 文件名 如遇上面问题:go mod tidy 2、查看配置信息:go env 3、windows用set修改配置文件,linux用export修改 4、中间件 (1)、全局中间件 r.Use(中间件函数名()) (2)、Next()方法 (3)、局部中间件 直接将中间件函数名用在…

k8s中 pod,service,deployment,ingress的使用场景

k8s 总体概览 前言Pod副本控制器(Replication Controller,RC)副本集(Replica Set,RS)部署(Deployment)服务(Service)ingress节点(Node&#xff09…

【教3妹学编程-算法题】找出峰值

3妹:2哥2哥,你有没有看到新闻:北京地铁事故中102人骨折! 2哥 : 看到了,没想到坐个地铁还出事故了。 3妹:事故原因为雪天轨滑导致前车信号降级,紧急制动停车,后车因所在区段位于下坡地…

【动态规划精选题目】2、路径问题模型

此动态规划系列主要讲解大约10个系列【后续持续更新】 本篇讲解路径问题模型中的6道经典题,会在讲解题目同时给出AC代码 目录 1、不同路径 2、不同路径2 3、珠宝的最大价值 4、下降路径最小和 5、最小路径和 6、地下城游戏 1、不同路径 class Solution { publi…

Zotero攻略

给大家分享一下我对于Zotero的使用。 1、下载链接 Zotero | Your personal research assistant 进入后直接下载即可 2、一些好用的插件 (1)Zotero Connector 下载地址:Zotero | Connectors 超级好用!不用一篇一篇下PDF了&am…

【计算机视觉--解耦视频分割跟踪任何物体】

UIUC&Adobe开源|无需监督,使用解耦视频分割跟踪任何物体!视频分割的训练数据往往昂贵且需要大量的标注工作。这限制了将端到端算法扩展到新的视频分割任务,特别是在大词汇量的情况下。为了在不为每个个别任务训练视频数据的情况下实现“跟…

reactive数据不响应

我们知道,reactive函数用于创建对象等复杂数据的响应式代理对象,当该对象的属性发生变化时,会自动触发视图更新。 但在Vue 3中,当我们使用reactive创建的对象或数组进行赋值时,尽管能够完成正常的赋值操作&#xff0c…

yuzu模拟器 模拟 设置 闪退

问题描述 如下操作后模拟器百分之百闪退 问题来源 yuzu模拟器对其配置文件不支持中文索引,所以你很有可能是做了如下操作。 解决方案 所以我们只要把这个中文配置文件删除即可。那么配置文件保存在哪呢? 打开文件存档位置向上索引至yuzu目录寻找…

2023人物专访【中国艺术领袖】诸学之专题报道

获悉诸学之先生的书画作品入选了《中国艺术领袖》丛书,为此进行了专题采访报道。 《中国艺术领袖》整理了新中国成立以来中国艺术发展变化的历史,是我国经典艺术的恢宏巨著,极具有参考性,收藏性,宣传性和实用性&#…