Stability AI发布全新代码模型Stable Code 3B

Stable Code 3B: Coding on the Edge

要点

  • Stable Code 3B 是一个包含 30 亿个参数的大型语言模型 (LLM),可实现准确且响应灵敏的代码补全,其水平与大 2.5 倍的 CodeLLaMA 7b 等模型相当。
  • 即使在 MacBook Air 等普通笔记本电脑上没有 GPU,也可以离线运行。

在这里插入图片描述

1月16日,Stability AI宣布 2024 年第一个大型语言模型版本:stable-code-3b。这个新的 LLM 是之前发布的 stable-code Alpha 3B 的后续版本,也是第一个主要的稳定代码版本,提供了新的最先进的模型,专为具有多种附加功能的代码完成而设计。

与 CodeLLaMA 7b 相比,Stable Code 3B 体积缩小了 60%,同时跨编程语言具有相似的高级性能。基于预先存在的 Stable LM 3B 基础模型(在 4 万亿个自然语言数据上进行训练),Stable Code 进一步接受了特定于软件工程的训练数据,包括代码。该模型的紧凑尺寸使其可以在现代笔记本电脑的边缘实时私下运行,即使是那些没有专用 GPU 的笔记本电脑。

Stable Code 3B 跨多种语言提供更多功能和显着更好的性能,并具有额外的优势,例如支持中间填充功能 (FIM) 和扩展的上下文大小。Stable Code 作为基础在最多 16,384 个 token 的序列上进行训练,但遵循与 CodeLlama 类似的方法,实施旋转嵌入,可选择允许修改最多 1,000,000 个旋转基,进一步将模型的上下文长度扩展至 100k 个 token。

Stable Code 3B 接受了 18 种编程语言的训练(根据 [2023 年 StackOverflow 开发人员调查] 选择)) 并展示了跨多种测试编程语言的 MultiPL-E 指标的最先进性能(与类似大小的模型相比)。

性能比较
在这里插入图片描述
在这里插入图片描述

Stable Code 完成 3B 与 CodeLLama 7B 的并排比较

在这里插入图片描述

Training见解

在训练流程由类似于 Codellama 的多阶段过程组成。从对自然语言数据进行预训练的 LM 开始,在本例中为 StableLM-3B-4e1t,然后进行无监督微调多个代码和与代码相关的数据集,包括 CommitPack、GitHub Issues、StarCoder 和其他数学数据集。在第二步中,根据 CodeLLama 中建议的基本修改,进一步使用 16,384 个标记的更长序列对模型进行微调。新的稳定代码模型还支持 Flash Attention 2 并且可供使用。

对数据和模型的进一步了解,可以参考Stability AI的模型卡中找到。Stability AI将发布一份完整的技术报告,其中包含更多详细信息和删减内容,以便对社区更加透明和开放。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/413739.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯(C++ 整数删除 优先队列 )

优先队列&#xff1a; 优先队列具有队列的所有特性&#xff0c;包括队列的基本操作&#xff0c;只是在这基础上添加了内部的一个排序&#xff0c;它本质是一个堆实现的。 1.头文件&定义 #include <queue> #include <functional> //greater<>// 定义 p…

主动轮廓——计算机视觉中的图像分割方法

​ 一、说明 简单来说&#xff0c;计算机视觉就是为计算机提供类似人类的视觉。作为人类&#xff0c;我们很容易识别任何物体。我们可以很容易地识别山丘、树木、土地、动物等&#xff0c;但计算机没有眼睛&#xff0c;也没有大脑&#xff0c;因此它很难识别任何图像。计算机只…

什么是JavaScript BOM

BOM是Browser Object Model的缩写&#xff0c;即浏览器对象模型。由于BOM是和浏览器相关的一些操作&#xff0c;因此产生的后果就是无数的浏览器厂商各自使用自己的一套方式实现BOM&#xff08;当然现在这个问题基本解决了。。&#xff09; 在网站中有很多针对浏览器的操作&…

C++系列-第1章顺序结构-9-字符类型char

在线练习&#xff1a; http://noi.openjudge.cn/ https://www.luogu.com.cn/ 总结 本文是C系列博客&#xff0c;主要讲述字符类型char 字符类型char 在C编程语言中&#xff0c;char是一种基本的数据类型&#xff0c;它用于存储单个字符。字符可以是字母、数字、标点符号或者…

SG-9101CGA(汽车+125°C可编程晶体振荡器)

SG-9101CGA是用于汽车CMOS输出的可编程晶体振荡器&#xff0c;彩用2.5 x 2.0 (mm)封装&#xff0c;0.67 MHz至170 MHz频率范围、工作温度范围为-40℃~125℃&#xff0c;符合车规级晶振&#xff0c;无铅&#xff0c;绿色环保&#xff0c;满足汽车工业标准&#xff0c;电源电压范…

蓝桥杯真题(Python)每日练Day1

说明&#xff1a;在CSP认证的基础上&#xff08;可以看看本人CSP打卡系列的博客&#xff09;备赛2024蓝桥杯&#xff08;Python&#xff09;&#xff0c;本人专业&#xff1a;大数据与数据科学 因此对python要求熟练掌握&#xff0c;通过练习蓝桥杯既能熟悉语法又能锻炼算法和思…

ai写作软件手机版哪个好用?这些软件了解一下

ai写作软件手机版哪个好用&#xff1f;随着人工智能技术的不断发展&#xff0c;手机版的AI写作软件也日益受到人们的关注。这些软件不仅能够帮助用户快速生成高质量的文本内容&#xff0c;还支持多种语言&#xff0c;满足不同用户的需求。本文将为你介绍几款知名的手机版AI写作…

PyCharm 快捷键(Ctrl + R)正则表达式批量替换

目录 一、使用快捷键CtrlR&#xff0c;打开替换界面 二、输入替换格式 三、点击全部替换 一、使用快捷键CtrlR&#xff0c;打开替换界面 二、输入替换格式 在第一个框输入 (.*): (.*) 第二个框输入 $1:$2, 三、点击全部替换

大模型学习与实践笔记(九)

一、LMDeply方式部署 使用 LMDeploy 以本地对话方式部署 InternLM-Chat-7B 模型&#xff0c;生成 300 字的小故事 2.api 方式部署 运行 结果&#xff1a; 显存占用&#xff1a; 二、报错与解决方案 在使用命令&#xff0c;对lmdeploy 进行源码安装是时&#xff0c;报错 1.源…

一款开源且不限制大小可以设置过期时间的支持分享的的开源文件共享系统picoshare 部署教程

1.拉取镜像 2.部署 创建目录 mkdir -p /opt/picoshare/data 部署 其中:"somesecretpass"是密码 docker run \--env "PORT4001" \--env "PS_SHARED_SECRETsomesecretpass" \--publish 10005:4001/tcp \--volume "/opt/picoshare/data:…

目标检测--01

基本概念 什么是目标检测&#xff1f; ​ 目标检测&#xff08;Object Detection&#xff09;的任务是找出图像中所有感兴趣的目标&#xff08;物体&#xff09;&#xff0c;确定它们的类别和位置&#xff0c;是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状…

深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?

深度学习和机器学习中针对非时间序列的回归任务&#xff0c;有哪些改进角度&#xff1f; 目录 深度学习和机器学习中针对非时间序列的回归任务&#xff0c;有哪些改进角度&#xff1f;引言1 数据预处理2 数据集增强3 特征选择4 模型选择5 模型正则化与泛化6 优化器7 学习率8 超…