开源大模型发展汇总

1. 大模型发展&概况

a. 发展线路图

其中基础模型如下:

  • 大部分不开源,而OPT、BLOOM、LLaMA 三个模型是主要面向开源促进研究,聊天机器人场景开源的Open Assistant(huggingface)
  • 中文有一些GLM,百川,MOSS,伶荔 (Linly)等

指令微调模型如下

微调模型依赖关系


b. 中文相关大模型

6月 SuperCLUE 中文大模型总排行榜

6月SuperCLUE基础能力榜单

6月SuperCLUE-70亿参数量级榜单

ps:

7.11 百川发布13B模型,超过ChatGLM 130B非开源模型

7.11 Claude2发布,个人通过app和pc免费提供,商用 API 收费。超过chatgpt3.5-turbo。与gpt4比各有优势。价格远低于ChatGPT


c. 支持中文的通用大模型概况

LLaMA

meta 开源

作者在20个benchmarks上验证了Zero-shot和Few-shot的效果。从效果上看上是非常不错的,似乎证明了训练数据的规模可以弥补模型规模的不足。

基于公开数据集

小参数媲美大参数模型

130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B

  • 训练:?
  • 运行:1*V100

ChatGLM(清华+智普ai)6B开源

对话模型,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。

ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。

  • 训练:100*A100
  • 运行:1*3090(10G显存)

百川(王小川)

baichuan-inc/Baichuan-13B-Chat · Hugging Face

基于LLaMA 源码重头训练的基座模型

目前最大中文开源模型(40层,GPT4 120层)13B模型中文数据集上已超过大部分国外开源

        训练:100*A100

        运行:1*3090 (16G显存)

MOSS(复旦)

对话机器人,体验地址:MOSS 类ChatGPT的开源项目。《流浪地球》

MOSS 是一个支持中英双语和多种插件的开源对话语言模型, moss-moon 系列模型具有 160 亿参数,在 FP16 精度下可在单张 A100/A800 或两张 3090 显卡运行,在 INT4/8 精度下可在单张 3090 显卡运行。

MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力

支持:使用搜索引擎、文生图、计算器、解方程。支持插件

  • 训练:?
  • 运行:1*A100 、2*3090(1w),单卡A100占用显存30G

 利玲(Linly) 

  1. 公开所有训练数据、代码、参数细节以及实验结果,确保项目的可复现性,用户可以选择合适的资源直接用于自己的流程中。
  2. 项目具有高兼容性和易用性,提供可用于 CUDA 和 CPU 的量化推理框架,并支持 Huggingface 格式。

目前公开可用的模型有:

    • Linly-Chinese-LLaMA:中文基础模型,基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力,现已开放 7B、13B 和 33B 量级,65B 正在训练中。
    • Linly-ChatFlow:中文对话模型,在 400 万指令数据集合上对中文基础模型指令精调,现已开放 7B、13B 对话模型。
    • Linly-ChatFlow-int4 :ChatFlow 4-bit 量化版本,用于在 CPU 上部署模型推理。

进行中的项目:

        Linly-Chinese-BLOOM:基于 BLOOM 中文增量训练的中文基础模型,包含 7B 和 175B 模型量级,可用于商业场景。

  • 训练:32*A100
  • 运行:?
  • CPM-Bee —— 中英文双语大语言模型

体验地址:CPM-Bee | OpenBMB

基座模型。工程院院士牵头。北大、北航、百度等参与的开放社区

基础任务,包括:文字填空、文本生成、翻译、问答、评分预测、文本选择题等等

开源可商用

  • Chinese-Vicuna —— 基于 LLaMA 的中文大语言模型

Chinese-Vicuna 是一个中文低资源的 LLaMA+Lora 方案。

项目包括

  • finetune 模型的代码
  • 推理的代码
  • 仅使用 CPU 推理的代码 (使用 C++)
  • 下载 / 转换 / 量化 Facebook llama.ckpt 的工具
  • 其他应用

  • Chinese-LLaMA-Alpaca —— 中文 LLaMA & Alpaca 大模型

Chinese-LLaMA-Alpaca 包含中文 LLaMA 模型和经过指令微调的 Alpaca 大型模型。

这些模型在原始 LLaMA 的基础上,扩展了中文词汇表并使用中文数据进行二次预训练,从而进一步提高了对中文基本语义理解的能力。同时,中文 Alpaca 模型还进一步利用中文指令数据进行微调,明显提高了模型对指令理解和执行的能力。

  • ChatYuan —— 对话语言大模型

ChatYuan 是一个支持中英双语的功能型对话语言大模型。ChatYuan-large-v2 使用了和 v1 版本相同的技术方案,在微调数据、人类反馈强化学习、思维链等方面进行了优化。

ChatYuan-large-v2 是 ChatYuan 系列中以轻量化实现高质量效果的模型之一,用户可以在消费级显卡、 PC 甚至手机上进行推理(INT4 最低只需 400M )

  • 训练:?
  • 运行:消费级显卡、pc、手机。只需400M

d. 支持中文的行业/场景大模型概况

LaWGPT 是一系列基于中文法律知识的开源大语言模型

该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力

本草(BenTsao)【原名:华驼 (HuaTuo)】是基于中文医学知识的 LLaMA 微调模型

此项目开源了经过中文医学指令精调 / 指令微调 (Instruct-tuning) 的 LLaMA-7B 模型。通过医学知识图谱和 GPT3.5 API 构建了中文医学指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在医疗领域的问答效果

  • 轩辕: 金融领域大模型

度小满在 BLOOM-176B 的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调。

  • ProtTrans

是国内最大的蛋白质预训练模型,参数总量达到 30 亿

FYI:

1.大语言模型调研汇总

2.开源大语言模型完整列表 全网最全 - 科技 - 糯米糕资讯网

2. 主流开源基座模型对比

LLaMA、ChatGLM 和 BLOOM。(百川新发布基于LLaMA源码从新制作中英数据集训练的基座模型)

模型

训练数据

训练数据量

模型参数量

词表大小

LLaMA

以英语为主的拉丁语系,不包含中日韩文

1T/1.4T tokens

7B、13B、33B、65B

32000

ChatGLM-6B

中英双语,中英文比例为 1:1

1T tokens

6B

130528

Bloom

46 种自然语言和 13 种编程语言,包含中文

350B tokens

560M、1.1B、1.7B、3B、7.1B、176B

250880

百川-13B

中英文

1.4T tokens

13B

64,000

模型

模型结构

位置编码

激活函数

layer norm

LLaMA

Casual decoder

RoPE

SwiGLU

Pre RMS Norm

ChatGLM-6B

Prefix decoder

RoPE

GeGLU

Post Deep Norm

Bloom

Casual decoder

ALiBi

GeLU

Pre Layer Norm

百川-13B

ALiBi

LLaMA模型及微调模型

运行要求:1*V100

  • Alpaca:斯坦福大学在 52k 条英文指令遵循数据集上微调了 7B 规模的 LLaMA。
  • Vicuna:加州大学伯克利分校在 ShareGPT 收集的用户共享对话数据上,微调了 13B 规模的 LLaMA。
  • baize:在 100k 条 ChatGPT 产生的数据上,对 LLaMA 通过 LoRA 微调得到的模型。
  • StableLM:Stability AI 在 LLaMA 基础上微调得到的模型。
  • BELLE:链家仅使用由 ChatGPT 生产的数据,对 LLaMA 进行了指令微调,并针对中文进行了优化。

ChatGLM模型及微调

ChatGLM2-6B发布:

运行要求:消费级显卡

  • langchain-ChatGLM:基于 langchain 的 ChatGLM 应用,实现基于可扩展知识库的问答。可基于本地知识库构建。可离线运行,私有化部署,有docker镜像
  • 闻达:大型语言模型调用平台,也是知识库问答,支持多种基座模型,推荐 ChatGLM-6B 实现了类 ChatPDF 功能。闻达对资源的评估

百川-13B模型及微调

 百川发布时间较短,有知名度的微调模型还未出现。百川-13B的运行资源要求参考如下

 

3. 微调finetune中文大模型

说明:

自训练模型的初衷起源于,上面3个问题。如果在业务中确实有价值,则值得测试自训练行业匹配的模型,风险可控,性能可控,成本可控。自主可控,且可以考虑对外服务

 训练成本:

不同模型,不同的finetune方法对原模型的影响不同,实际训练后才能确定。 

以百川-13B为例

运行资源参考

  1. 租用,阿里云服务P100(16G显存):月费3k-4k+。或12元/小时
  2. 自购消费级显卡1*3090(24G),9K,2手16G大概7K。另需单独服务器

finetune资源参考:

依参数量,数据量、数据构成不同等差异较大,参考网友信息

Alpaca 7B

Alpaca 7B是斯坦福大学在LLaMA 7B模型上经过52K个指令跟踪示范进行微调的模型,其性能比肩GPT-3.5(text-davinci-003),但是整个训练成本不到600美元。

在8*A100(80G)上训练了3个小时,不到100美元;使用OpenAI的API自动生成指令集,不到500美元

  • 博客《Alpaca: A Strong, Replicable Instruction-Following Model》、 stanford alpaca
  • 论文《Self-Instruct: Aligning Language Models with Self-Generated Instructions》、知乎-论文解读贴

gpt2_chinese

  1. 15G的中文语料
  2. 31亿个tokens
  3. 一张3090显卡
  4. 训练60多个小时

最终训练出一个中文版本的gpt2,如果有想了解如何训练中文gpt2的,可以查看这个教程

https://github.com/yuanzhoulvpi2017/zero_nlp/tree/main/chinese_gpt2

chinese-chat-30m

模型参数:vocab_size=12829,num_hidden_layers=8,num_attention_heads=8,intermediate_size=1024,

max_position_embeddings=512,hidden_size=512 语言模型数据:10G数据 finetune:alpaca 51K条数据

https://huggingface.co/MLRush/chinese-chat-30m

网友测试

训练配置:4*V100,训练时长约70-80小时。33G中文数据,0.8B参数

https://github.com/enze5088/Chatterbox/blob/main/docs/model/llama-zh-base.md

4.其它相关

1.上层构建

AI agent

定位为独立的智能体,除模型微调外,目前各前沿公司重点关注方向之一。目的是在模型之上构建一个能分解处理人类需求为多重promopt的代理层。改层有望部分取代现有程序功能

2. 算力方面

量子计算发展迅速

  1. 华为云开发内部测试量子编程,提供开发包,小规模组织量子开发竞赛
  2. 谷歌最新突破。新量子计算机可以在短短几秒内完成传统超级计算机47年的计算量。

华为HiQ:HiQ量子计算

本源量子云平台:量子云-本源量子

算力提升,对未来带来无限想象空间

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/22619.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac环境下安装nginx并本地部署项目

1、前提 必须安装了homebrew,可在终端输入命令brew -v查看是否已经安装,如果输入指令出现版本号说明已经安装成功 如果未安装先安装(homebrew官网地址) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/H…

类和对象(二)

目录 一、类的六个默认成员函数 二、构造函数 2.1 概念 2.2 特性 三、析构函数 3.1 概念 3.2 特性 四、拷贝构造函数 4.1 概念 4.2 特性 五、赋值运算符重载 5.1 运算符重载 5.2 赋值运算符重载特性 六、const修饰成员函数 七、取地址及const取地址操作符重载 一…

设计模式——备忘录模式

备忘录模式 定义 在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态,之后就可以将该对象恢复到原先保存的状态。 备忘录模式(Memento Pattern)是一种弥补缺陷的模式,能够在失败…

敏捷测试自动化

目录 前言: 敏捷宣言 敏捷软件开发VS传统方法 敏捷云服务 对什么进行自动化? 测试自动化的技巧 关于敏捷测试和自动化测试的关键信息 前言: 敏捷测试自动化是在敏捷开发环境中使用自动化工具和技术来支持测试活动的一种方法。它旨在提…

4G 网络跟 5G 的区别

4G网络和5G网络是两种不同的移动通信技术,它们在数据传输速度、延迟、连接密度和网络容量等方面存在一些区别。以下是它们之间的主要区别: 1. 速度:5G网络的速度比4G网络更快。5G网络具备更广的频段和更高的频率,能够提供更大的带…

【数据结构---排序】庖丁解牛式剖析常见的排序算法

排序算法 一、常见的排序算法二、常见排序算法的实现1. 直接插入排序2. 希尔排序3. 直接选择排序4. 堆排序5. 冒泡排序6. 快速排序6.1 递归实现快速排序思路一、hoare 版本思路二、挖坑法思路三、前后指针法 6.2 非递归实现快速排序 7. 归并排序7.1 归并排序的递归实现7.2 归并…

KuiperInfer深度学习推理框架环境配置-Ubuntu 22.04

KuiperInfer项目地址 Github项目地址 B站课程地址 安装Armadillo 官网:Armadillo官网 介绍:Armadillo C Library是一种C的线性代数库,包含一些矩阵和向量的运算,可以选用高效的LAPACK和BLAS进行加速。 矩阵相关计算的文档&…

发布项目管理生产的时候出现界面滚动不了

新的项目管理发布后出现页面鼠标上下滚动不了的问题,比较奇怪的是,本地开发没有问题,但发布生产后就出现问题了。 因为这次增加的组件比较多,相应的样式也比较多,所以那先分几个部分处理 1、先新加的几个组件是否有冲…

Unity VR 开发教程 OpenXR+XR Interaction Toolkit(九)根据不同物体匹配对应的抓取手势

文章目录 📕教程说明📕前置准备📕HandData 脚本存储手部数据📕制作预设手势📕手势匹配脚本 GrabHandPose⭐完整代码⭐需要保存的数据⭐得知什么时候开始抓取和取消抓取⭐将手势数据赋予手部模型⭐平滑变化手势⭐开始抓…

Spark编程-共享变量(广播变量和累加器)

共享变量是什么 Spark中的两个重要抽象一个是RDD,另一个就是共享变量。 在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。 但是&…

单轴机器人的结构与特点

单轴机器人是由马达驱动的移动平台,由滚珠螺杆和 U型线性滑轨导引构成,其滑座同时为滚珠螺杆的驱动螺帽及线性滑轨的导引滑块,可用半导体、光电、交通运输业、环保节能产业、精密工具机、机械产业、智慧自动化、生技医疗上。 相对于传统的模组…

Python Web框架 Flask 安装、使用

Python Web框架 Flask 安装 安装 Flask 框架 首先需要安装 Flask 框架, 可以通过以下命令安装: [rootlocalhost web]# pip3 install Flask Collecting FlaskDownloading Flask-2.0.3-py3-none-any.whl (95 kB)|██████████████████████████████…